使用模型
使用了huggingface别人量化的模型
https://huggingface.co/RedHatAI/Qwen3.6-35B-A3B-NVFP4
踩坑1:vllm的推理格式在stream下输出有问题
详见下面issue
目前已使用codex修复
Fix Qwen3 streaming content routing by xy3xy3 · Pull Request #40820 · vllm-project/vllm
踩坑2.调用工具的parser
https://docs.vllm.ai/en/latest/features/tool_calling
这里写qwen系列采用--call-parser hermes
然而qwen3.6似乎和qwen3 coder一致使用--call-parser qwen3_xml
官方文档不是非常详细,缺少具体的模型名字