小米AI完成三项重要突破 Xiaomi MiMo-V2.5-Pro-UltraSpeed刷新全球推理速度

2026-06-09 11:45:25
分享
AIME

问财摘要

1、小米MiMo技术团队上线了Xiaomi MiMo-V2.5-Pro-UltraSpeed模式,这是全球首个在通用GPU上推理速度突破1000Tokens/s的万亿参数模型,刷新旗舰模型全球推理最快速度。该模式通过全链路工程能力优化,在不降低模型能力前提下,首次把推理速度提升至1000Tokens/s,且无需定制芯片、只使用通用GPU即可达成。 2、小米AI在模型能力、推理成本和推理效率三个维度接连取得突破,其中,4月23日,MiMo-V2.5-Pro在Artificial Analysis上获得综合智能指数与Agent指数全球开源模型并列第一;5月27日,Xiaomi MiMo-V2.5系列模型API因技术优化宣布最高降价99%,并同步调整Token Plan计费体系。 3、Xiaomi MiMo-V2.5-Pro-UltraSpeed模式带来的变化,第一次让万亿参数模型能够真正参与到复杂的实时任务场景。
免责声明 内容由AI生成
文章提及标的
化工--

记者从小米获悉,6月8日晚,小米MiMo技术团队正式上线Xiaomi MiMo-V2.5-Pro-UltraSpeed模式,这是全球首个在通用GPU上推理速度突破1000Tokens/s的万亿参数模型,刷新旗舰模型全球推理最快速度。

据悉,MiMo-V2.5-Pro-UltraSpeed通过对模型推理系统的全链路工程能力优化,在不降低模型能力前提下,首次把推理速度提升至1000Tokens/s,且无需定制芯片、只使用通用GPU即可达成。业内认为,小米MiMo大模型推理工程实力跻身全球第一梯队。

即日起至6月23日,MiMo-V2-Pro-UltraSpeed模式将采取申请制限时开放,通过申请的用户可接入API进行体验。

记者梳理发现,自4月底以来,小米AI在模型能力、推理成本和推理效率三个维度接连取得突破。

其中,4月23日,MiMo-V2.5-Pro在Artificial Analysis上获得综合智能指数与Agent指数全球开源模型并列第一;5月27日,Xiaomi MiMo-V2.5系列模型API因技术优化宣布最高降价99%,并同步调整Token Plan计费体系。6月8日,MiMo-V2.5-Pro-UltraSpeed以1000Tokens/s刷新万亿参数旗舰模型推理速度新纪录。

过去,大模型领域存在一个隐形瓶颈:速度快的模型往往参数小、能力弱;能力强的模型又因为体量庞大而响应缓慢,且很多高速推理模型依赖昂贵的专用芯片。

Xiaomi MiMo-V2.5-Pro-UltraSpeed模式用通用GPU实现了万亿参数模型的1000Tokens/s推理速度,让大模型在不降低模型能力的前提下,获得接近实时的复杂任务响应能力,成为全球首个达到这一速度水平的万亿参数模型。

小米MiMo技术团队表示,该突破是基于Xiaomi MiMo-V2.5Pro的SWA架构,叠加了FP4Experts、DFlash解码以及TileRT团队的执行系统Co-design,从模型到推理引擎再到GPU执行路径进行了全链路优化。这是小米AI在模型推理系统全链路优化工(850102)程能力的新突破,打破了“快、强、通用GPU无法兼得”的行业不可能三角,推理工程实力跻身全球第一梯队。

Xiaomi MiMo-V2.5-Pro-UltraSpeed的发布,标志着旗舰大模型开始迈入新的推理效率阶段,也为未来更广泛的实时应用场景提供了可能。

作为全球首个在通用GPU上突破1000Tokens/s的万亿参数模型,Xiaomi MiMo-V2.5-Pro-UltraSpeed模式带来的变化,第一次让万亿参数模型能够真正参与到复杂的实时任务场景。

过去,大模型最典型的使用场景是聊天问答。用户向模型提问,模型给出答案;用户继续追问,模型继续回复。随着Agent兴起,大模型开始从“回答问题”转向“完成任务”。无论是开发应用、生成代码,还是多个Agent协同的复杂工作流,本质上都需要模型在后台持续进行大量推理调用。

过去限制这些场景普及的关键因素并非模型能力不足,而是推理延迟过高。当一次任务需要调用几十次甚至上百次模型推理时,每轮几秒钟的等待都会被不断放大,最终形成分钟级甚至更长的响应、执行时间。

Xiaomi MiMo-V2.5-Pro-UltraSpeed模式实现1000Tokens/s推理速度后,万亿参数大模型具备了接近实时完成复杂任务的能力,大模型进入智能编程、Agent协同、高频量化交易等复杂任务场景的门槛正在降低。

背后或意味着更深远的变化。如果说过去的大模型解决的是“聊天效率”问题,那么更高的推理效率正在推动大模型从“聊天实时”迈向“任务实时”,从信息工具逐步演变为真正的生产力工具。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈