趋境科技发布Mooncake下一代推理架构以解耦互联池化应对大模型复杂推理挑战

据趋境科技消息，6月5日，在“AI算力生态论坛暨奇异摩尔产品发布会”上，趋境科技技术专家、Mooncake核心贡献者杨珂发表主题演讲，系统阐述了由“解耦、互联、池化”理念驱动的下一代AI推理架构Mooncake，旨在应对大模型向智能体、多模态等复杂场景演进时，传统架构在算力利用与延迟控制等方面面临的挑战。

随着大模型应用场景复杂化，推理请求形态多变，传统单体架构面临瓶颈。Mooncake的核心理念是通过Prefill、Decode、Encoder与KVCache等模块的解耦，实现资源的独立扩展与灵活调度。其采用PD（Prefill-Decode）分离、KVCache全局池化等技术，将推理过程的不同模块拆分，并通过缓存复用减少重复计算，从而提升整体推理效率。

杨珂介绍了Mooncake在多个前沿方向的探索：在视觉模型的EPD（Encoder-Prefill-Decode）分离架构中，支撑不同阶段的数据传输与协同；在全模态Omni架构中，支撑图像、语音、视频和文本等多模态数据流转；在分离式强化学习场景中，支持模型权重同步与大规模数据调度。

高性能网络互联被强调为驱动下一代AI推理基础设施的关键。在模块解耦至不同节点或集群的架构下，系统对跨GPU、跨节点的数据传输要求极高。高带宽、低延迟、低CPU开销的RDMA数据通路，能显著提升KVCache传输、专家并行等关键计算模块的数据访问效率，是实现大规模异构算力池化的重要前提。Mooncake Transfer Engine正是为此构建，通过多网卡池化、拓扑感知路径选择和高性能RDMA通信，提供稳定高效的数据连接能力。

趋境科技表示，未来将继续依托开源生态与产业合作，加强与智源人工智能（885728）研究院、奇异摩尔等伙伴的协同，推动推理系统向更高吞吐、更低成本、更强弹性和开放互联的方向演进。

原文：解耦、互联、池化： Mooncake 驱动的下一代推理架构｜AI 算力生态论坛（来源：趋境科技）

趋境科技发布Mooncake下一代推理架构 以解耦互联池化应对大模型复杂推理挑战

趋境科技发布Mooncake下一代推理架构以解耦互联池化应对大模型复杂推理挑战