趋境科技发布Mooncake下一代推理架构 以解耦互联池化应对大模型复杂推理挑战

2026-06-10 16:59:18
来源:AI观察
分享
文章提及标的
人工智能--

据趋境科技消息,6月5日,在“AI算力生态论坛暨奇异摩尔产品发布会”上,趋境科技技术专家、Mooncake核心贡献者杨珂发表主题演讲,系统阐述了由“解耦、互联、池化”理念驱动的下一代AI推理架构Mooncake,旨在应对大模型向智能体、多模态等复杂场景演进时,传统架构在算力利用与延迟控制等方面面临的挑战。

随着大模型应用场景复杂化,推理请求形态多变,传统单体架构面临瓶颈。Mooncake的核心理念是通过Prefill、Decode、Encoder与KVCache等模块的解耦,实现资源的独立扩展与灵活调度。其采用PD(Prefill-Decode)分离、KVCache全局池化等技术,将推理过程的不同模块拆分,并通过缓存复用减少重复计算,从而提升整体推理效率。

杨珂介绍了Mooncake在多个前沿方向的探索:在视觉模型的EPD(Encoder-Prefill-Decode)分离架构中,支撑不同阶段的数据传输与协同;在全模态Omni架构中,支撑图像、语音、视频和文本等多模态数据流转;在分离式强化学习场景中,支持模型权重同步与大规模数据调度。

高性能网络互联被强调为驱动下一代AI推理基础设施的关键。在模块解耦至不同节点或集群的架构下,系统对跨GPU、跨节点的数据传输要求极高。高带宽、低延迟、低CPU开销的RDMA数据通路,能显著提升KVCache传输、专家并行等关键计算模块的数据访问效率,是实现大规模异构算力池化的重要前提。Mooncake Transfer Engine正是为此构建,通过多网卡池化、拓扑感知路径选择和高性能RDMA通信,提供稳定高效的数据连接能力。

趋境科技表示,未来将继续依托开源生态与产业合作,加强与智源人工智能(885728)研究院、奇异摩尔等伙伴的协同,推动推理系统向更高吞吐、更低成本、更强弹性和开放互联的方向演进。

原文:解耦、互联、池化: Mooncake 驱动的下一代推理架构|AI 算力生态论坛(来源:趋境科技)

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME