Qwen3.7-Plus上线千问云,多模态智能体能力再升级!

2026-06-02 15:05:28
来源:阿里云
分享
文章提及标的
周期--
力拓--

Agentic时代,AI从“对话”走向“干活”。

今天,千问3.7系列最新多模态大模型Qwen3.7-Plus正式发布,并已上架千问云和阿里云百炼,开发者可通过API直接调用。

Qwen3.7-Plus文本和视觉能力均大幅提升,在第三方权威榜单Vision Arena中跻身全球前五、中国第一。

第三方权威榜单Vision Arena显示,阿里凭借Qwen3.7-Plus位列全球前五、中国第一

该模型实现了多模态混合智能体的新突破——不仅能看懂图片和视频,还能深度推理、自我编程、调用工具、验证测试并自主迭代,将“看、想、写、做、验”整合进统一的智能体工作流。

从“看懂”到“做完”:多模态混合智能体

传统多模态模型的能力往往止步于“理解”。Qwen3.7-Plus将视觉感知与代码生成、工具调用、GUI操控深度融合,支持在单一智能体循环中闭环执行复杂任务。

在一项桌面端应用复刻测试中,Qwen3.7-Plus基于GUI感知能力,模拟人与示例股票应用自主交互,理解UI布局和功能细节,自动生成SwiftUI代码并接入实时行情API获取真实数据,自主执行并通过了10项核心功能测试,完成了对原生macOS Stocks应用的高保真复刻。

在另一项英语词汇学习APP的完整开发测试中,Agent连续稳定运行超11小时,自动完成从需求文档生成、代码编写、安装部署、测试用例创建到多场景测试的全流程,累计生成超10,000行代码,触发超1,000次Agent调用,覆盖了软件研发全生命周期(883436)的核心阶段。

文本能力接近旗舰,编程与Agent能力显著提升

Qwen3.7-Plus是千问3.7系列的最新模型,纯文本能力可接近旗舰模型Qwen3.7-Max的水平,涌现出Plus级别模型中较强的编程、Agent、推理及通用能力:

编程:在Terminal Bench 2.0-Terminus、SciCode等评测中,较上代Qwen3.6-Plus提升约9分

Agent:在评估通用Agent能力的Skillbench评测中提升10.2分;在MCP-Mark、Deep-Planning等评测中表现突出

推理:在数学推理Apex评测中,取得近3倍于上代模型的性能评分

长上下文:MRCR-v2 128K得分91.7,长文本理解能力表现优异

Qwen3.7-Plus主要评测得分

视觉能力系统性增强

Qwen3.7-Plus围绕智能体的实际需求,对视觉能力进行了系统性增强:

视觉推理:纯视觉推理BabyVision评测得分从上代的37.4提升至64.7,泛化能力大幅提升

搜索增强问答:在SimpleVQA、MMSearchPlus、MMBC等评测中,较上代性能提升最高超2倍。给一张工厂里模糊的专业机械图,千问3.7可以将该设备的功能、参数剖析准确

GUI感知与操控:ScreenSpot Pro从上代68.2提升至79.0,AndroidWorld得分81.0,支持理解和操作真实用户界面

视觉编程:从一张照片、截图、草图或一段视频出发,可通过“视觉编程”交付完整的SVG动画或网页

在视频理解和驾驶场景理解方面,千问3.7对视频中的事件、动作、时序和语义关系,以及真实世界的动态场景、交通参与者和空间关系的理解能力均有增强,为多模态智能体在自动驾驶、具身智能等场景中的应用奠定基础。

工具使用能力拓展

集成CI代码解释器后,Qwen3.7-Plus可以将找不同、华容道、迷宫等视觉任务转化为可计算的问题并自主求解。接入搜索增强后,可结合视觉线索与外部知识,回答仅凭图像内容无法解答的开放性问题。

基于 Qwen3.7-Plus 还可以构建浏览器智能助手,面对非科班用户“采购一台最便宜 ECS 服务器”的需求,Agent 能够直接进入云控制台,完成实例规格比价、低成本选型、镜像与存储配置、安全组设置、订单确认等完整操作,并在价格变化、库存限制或购买受阻时主动反思和调整策略。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号-4
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈