据趋境科技消息,6月5日,在“AI算力生态论坛暨奇异摩尔产品发布会”上,趋境科技技术专家、Mooncake核心贡献者杨珂发表主题演讲,系统阐述了由“解耦、互联、池化”理念驱动的下一代AI推理架构Mooncake,旨在应对大模型向智能体、多模态等复杂场景演进时,传统架构在算力利用与延迟控制等方面面临的挑战。
随着大模型应用场景复杂化,推理请求形态多变,传统单体架构面临瓶颈。Mooncake的核心理念是通过Prefill、Decode、Encoder与KVCache等模块的解耦,实现资源的独立扩展与灵活调度。其采用PD(Prefill-Decode)分离、KVCache全局池化等技术,将推理过程的不同模块拆分,并通过缓存复用减少重复计算,从而提升整体推理效率。
杨珂介绍了Mooncake在多个前沿方向的探索:在视觉模型的EPD(Encoder-Prefill-Decode)分离架构中,支撑不同阶段的数据传输与协同;在全模态Omni架构中,支撑图像、语音、视频和文本等多模态数据流转;在分离式强化学习场景中,支持模型权重同步与大规模数据调度。
高性能网络互联被强调为驱动下一代AI推理基础设施的关键。在模块解耦至不同节点或集群的架构下,系统对跨GPU、跨节点的数据传输要求极高。高带宽、低延迟、低CPU开销的RDMA数据通路,能显著提升KVCache传输、专家并行等关键计算模块的数据访问效率,是实现大规模异构算力池化的重要前提。Mooncake Transfer Engine正是为此构建,通过多网卡池化、拓扑感知路径选择和高性能RDMA通信,提供稳定高效的数据连接能力。
趋境科技表示,未来将继续依托开源生态与产业合作,加强与智源人工智能(885728)研究院、奇异摩尔等伙伴的协同,推动推理系统向更高吞吐、更低成本、更强弹性和开放互联的方向演进。
原文:解耦、互联、池化: Mooncake 驱动的下一代推理架构|AI 算力生态论坛(来源:趋境科技)
