dgxspark vllm部署qwen3.6 35b a3b踩坑

Author： xy3
发布时间：April 25, 2026
114 views
No comments
717 words
Categories：学习笔记

使用模型

使用了huggingface别人量化的模型

https://huggingface.co/RedHatAI/Qwen3.6-35B-A3B-NVFP4

踩坑1：vllm的推理格式在stream下输出有问题

详见下面issue

目前已使用codex修复

Fix Qwen3 streaming content routing by xy3xy3 · Pull Request #40820 · vllm-project/vllm

踩坑2.调用工具的parser

https://docs.vllm.ai/en/latest/features/tool_calling

这里写qwen系列采用--call-parser hermes

然而qwen3.6似乎和qwen3 coder一致使用--call-parser qwen3_xml

官方文档不是非常详细，缺少具体的模型名字

Last modification：April 25, 2026

© Allow specification reprint

如果觉得我的文章对你有用，请随意赞赏

Leave a Comment Cancel reply
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

Comment *

Private comment

Name *

🎲

Email *

Site