据摩尔线程(688795)消息,2月11日,智谱(HK2513)发布新一代大模型GLM-5。摩尔线程(688795)基于SGLang推理框架,在其旗舰AI训推一体GPU MTT S5000上,于发布当日(Day-0)完成了对GLM-5的全流程适配与验证,实现了国产全功能GPU对最新大模型的即时高效支持。
此次适配成功打通了模型推理全链路,并深度释放了MTT S5000的原生FP8加速能力,在确保模型精度的同时显著降低显存占用,实现了GLM-5的高性能推理。
GLM-5核心特性:定义Agentic Engineering新高度
GLM-5定位为顶尖Coding模型,整体性能较上一代提升20%,核心突破在于强大的Agentic Engineering(代理工程)能力。在全球权威的Artificial Analysis榜单中,GLM-5位居全球第四、开源第一。在编程能力上对齐Claude Opus 4.5,在SWE-bench-Verified和Terminal Bench 2.0中分别获得77.8和56.2的开源模型最高分数。在内部Claude Code评估中,其在前端、后端、长程任务等开发任务上平均增幅超过20%,能自主完成Agentic长程规划与执行等系统工程任务。
摩尔线程(688795)核心优势:软硬协同的全栈算力底座
MTT S5000是基于第四代MUSA架构“平湖”打造的全功能GPU智算卡,单卡AI算力最高达1000 TFLOPS,配备80GB显存,带宽1.6TB/s,完整支持从FP8到FP64的全精度计算。依托MUSA全栈平台,其原生适配PyTorch、SGLang等主流框架,旨在构建坚实的国产算力底座。
此次快速支持体现了MTT S5000构建的软硬协同技术能力:
底层架构与生态兼容:天生适配,极速迁移
MTT S5000凭借充沛算力与对稀疏Attention的架构级支持,在大规模上下文处理中保持高吞吐低延迟。MUSA软件栈TileLang原生算子单元测试覆盖率超80%,使多数通用算子可直接复用,实现快速适配。
原生FP8加速:SGLang 框架深度优化
基于SGLang-MUSA推理引擎及MTT S5000硬件原生FP8计算单元,相比传统BF16,在精度无损的同时大幅降低显存占用并提升推理吞吐量。
独创ACE引擎:通信计算并行,释放极致吞吐
MTT S5000利用独创的异步通信引擎(ACE),实现物理级的“通信计算重叠”,有效释放15%的通信被占算力,配合细粒度重计算技术,全方位提升效率与吞吐量。
超长上下文支持:专为AI Coding打造
通过高效算子融合及框架优化,MTT S5000在代码库分析与长周期(883436)Agent任务中能保持低延迟与快生成速度。其与GLM-5的组合在函数补全、漏洞检测等核心场景表现卓越。
从GLM-4.6、GLM-4.7到GLM-5,摩尔线程(688795)已将“发布即适配”化为常态,证明了国产全功能GPU及MUSA软件栈的成熟度与稳定性。
原文:Day-0支持|摩尔线程MTT S5000率先完成对GLM-5的适配(来源:摩尔线程(688795))
