阿里开源智能体编程模型 Qwen3-Coder-Next ,推理成本大降
2 月 3 日晚,阿里开源新一代智能体编程模型 Qwen3-Coder-Next,仅激活 3B,其智能体编程性能就可媲美 DeepSeek-V3.2、GLM-4.7 等顶级开源模型。千问新编程模型实现了智能体训练上的创新性扩展(Scaling),可像个专业又精准的程序员一样边思考边编程,打开了小型模型处理长上下文和复杂智能体任务的全新空间。基于技术新突破,“小快灵”的 Qwen3-Coder-Next 推理成本显著降低,仅为同等性能模型成本开销的 5%~10%,特别适用于家用电脑、轻量服务器等低成本智能体部署场景,也是目前 Agent 编程能力最强的小型开源编程模型。
AI 编程是大模型最重要的基础能力,如何提升模型使用工具的 Agent 能力,成为进一步突破编程能力天花板的关键。基于 Qwen3-Next 新架构,Qwen3-Coder-Next 专门面向编程智能体打造,总参数 80B 仅激活 3B,是小型混合线性 MoE 模型,拥有出色的编程和智能体能力:在权威的 SWE-Bench Verified 基准测试中,新模型使用 SWE-Agent 框架,问题解决率成功突破 70%,在多语言设置及更具挑战性的 SWE-Bench-Pro 测试中表现亮眼;在 TerminalBench 2.0、Aider 等智能体评测中,千问新模型仅激活 3B,就能匹敌甚至超过 DeepSeek-V3.2、GLM-4.7、MiniMax-M2.1 等更大规模的开源模型。
智能体训练扩展,是千问新模型实现编程与 Agent 能力提升的关键。与主流 AI 编程模型习惯根据“标准问题”提供“标准答案”不同,Qwen3-Coder-Next 采取了一条全新的训练扩展路线:通过使用大规模的可验证编程任务与可执行环境进行训练,让模型在真实环境反馈中“边干边学”,从而让模型学习到程序员处理现实编程问题的“精髓”。基于此,在面临现实世界中令 Agent 头疼的长上下文推理、工具使用、从执行失败中恢复等难题,千问新模型都能从容应对。
根据模型规模与 SWE-Bench-Pro 表现之间的帕累托前沿(Pareto frontier)关系对比图,Qwen3-Coder-Next 激活 3B 参数的性能表现,可与激活参数量高 10 倍到 20 倍的模型相当,这相当于同样的性能却节省了 90% 到 95% 的推理开销;在面向低成本智能体部署方面,Qwen3-Coder-Next 也处于强势的帕累托前沿地位,更适合本地端侧部署,让小型混合线性模型也能支撑实用且有竞争力的编程智能体。
Qwen3-Coder-Next 共开源基座(Base)模型和指令微调(Instruct)模型两大版本,已在魔搭社区、Hugging Face 等平台开源上线,全球开发者和中小企业都可以免费下载商用。Qwen3-Coder-Next 可轻松集成到多种下游应用中,比如 OpenClaw、Qwen Code、Claude Code、Web 开发、浏览器使用、Cline 等,实现轻巧高效的智能体编程。
0人