使用模型

使用了huggingface别人量化的模型

https://huggingface.co/RedHatAI/Qwen3.6-35B-A3B-NVFP4

踩坑1:vllm的推理格式在stream下输出有问题

详见下面issue

目前已使用codex修复

Fix Qwen3 streaming content routing by xy3xy3 · Pull Request #40820 · vllm-project/vllm

踩坑2.调用工具的parser

https://docs.vllm.ai/en/latest/features/tool_calling

这里写qwen系列采用--call-parser hermes

然而qwen3.6似乎和qwen3 coder一致使用--call-parser qwen3_xml

官方文档不是非常详细,缺少具体的模型名字

Last modification:April 25, 2026
如果觉得我的文章对你有用,请随意赞赏