摩尔线程MTT S5000 GPU实现GLM-5大模型发布当日适配

据摩尔线程（688795）消息，2月11日，智谱（HK2513）发布新一代大模型GLM-5。摩尔线程（688795）基于SGLang推理框架，在其旗舰AI训推一体GPU MTT S5000上，于发布当日（Day-0）完成了对GLM-5的全流程适配与验证，实现了国产全功能GPU对最新大模型的即时高效支持。

此次适配成功打通了模型推理全链路，并深度释放了MTT S5000的原生FP8加速能力，在确保模型精度的同时显著降低显存占用，实现了GLM-5的高性能推理。

GLM-5核心特性：定义Agentic Engineering新高度

GLM-5定位为顶尖Coding模型，整体性能较上一代提升20%，核心突破在于强大的Agentic Engineering（代理工程）能力。在全球权威的Artificial Analysis榜单中，GLM-5位居全球第四、开源第一。在编程能力上对齐Claude Opus 4.5，在SWE-bench-Verified和Terminal Bench 2.0中分别获得77.8和56.2的开源模型最高分数。在内部Claude Code评估中，其在前端、后端、长程任务等开发任务上平均增幅超过20%，能自主完成Agentic长程规划与执行等系统工程任务。

摩尔线程（688795）核心优势：软硬协同的全栈算力底座

MTT S5000是基于第四代MUSA架构“平湖”打造的全功能GPU智算卡，单卡AI算力最高达1000 TFLOPS，配备80GB显存，带宽1.6TB/s，完整支持从FP8到FP64的全精度计算。依托MUSA全栈平台，其原生适配PyTorch、SGLang等主流框架，旨在构建坚实的国产算力底座。

此次快速支持体现了MTT S5000构建的软硬协同技术能力：

底层架构与生态兼容：天生适配，极速迁移

MTT S5000凭借充沛算力与对稀疏Attention的架构级支持，在大规模上下文处理中保持高吞吐低延迟。MUSA软件栈TileLang原生算子单元测试覆盖率超80%，使多数通用算子可直接复用，实现快速适配。

原生FP8加速：SGLang 框架深度优化

基于SGLang-MUSA推理引擎及MTT S5000硬件原生FP8计算单元，相比传统BF16，在精度无损的同时大幅降低显存占用并提升推理吞吐量。

独创ACE引擎：通信计算并行，释放极致吞吐

MTT S5000利用独创的异步通信引擎（ACE），实现物理级的“通信计算重叠”，有效释放15%的通信被占算力，配合细粒度重计算技术，全方位提升效率与吞吐量。

超长上下文支持：专为AI Coding打造

通过高效算子融合及框架优化，MTT S5000在代码库分析与长周期（883436）Agent任务中能保持低延迟与快生成速度。其与GLM-5的组合在函数补全、漏洞检测等核心场景表现卓越。

从GLM-4.6、GLM-4.7到GLM-5，摩尔线程（688795）已将“发布即适配”化为常态，证明了国产全功能GPU及MUSA软件栈的成熟度与稳定性。

原文：Day-0支持｜摩尔线程MTT S5000率先完成对GLM-5的适配（来源：摩尔线程（688795））