GLM-5×华为:全球开源第一的大模型,跑在中国自己的算力上
今日,智谱新一代旗舰基座模型 GLM-5 发布,从写代码、写前端的 Vibe Coding,进化到写工程、完成大任务的 Agentic Engineering。
GLM-5 采用 744B 参数(激活 40B)混合专家(MoE)架构,在编程与智能体能力方面取得开源 SOTA 表现:
在全球权威的 Artificial Analysis 榜单中,GLM-5 位居全球第四、开源第一;
在 SWE-bench-Verified、BrowseComp 等编程和智能体核心评测中取得开源最高分;
真实编程体验逼近 Claude Opus 4.5。
GLM-5 在昇腾上首次实现 W4A8 混合精度量化,可 Atlas 800T A3 单机部署,实测开箱性能对标 H100 双机,在长序列、低时延场景下部署成本减少 50%。
核心工作如下:
W4A8 量化:对模型权重文件采用 W4A8 量化,能够极大地减少显存占用,并提升 Decode 阶段的执行速度;
高性能融合算子:Lightning Indexer、Sparse Flash Attention 和 MLAPO 等高性能融合算子,可以有效加速模型端到端的推理执行;
推理引擎:使用 vLLM-Ascend 和 SGLang 推理引擎,进一步提升了模型推理性能。
推理部署:
https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md
训练部署:
https://modelers.cn/models/MindSpeed/GLM-5
W4A8 量化
1. MsModelSlim 量化工具的易扩展性,全程轻松量化
a)按模块区分量化比特与算法:例如 Attention 与 MLP 主体用 W8A8,MoE 专家用 W4A8;gate 等量化敏感层可按需回退,避免过大精度损失。
b)子图级开关:通过 enable_subgraph_type 控制对 OV、norm-linear、up-down 的融合与平滑,便于推理框架使用融合算子提升性能。
c)一键即可量化:支持 GLM-5 量化过程“预处理 + 子图融合 + 分层线性量化”的完整流水线,安装后,只需输入以下命令行即可轻松完成量化:
msmodelslim quant --model_path ${model_path} --save_path ${save_path} --model_type GLM-5 --quant_type w4a8 --trust_remote_code True
2. MsModelSlim 提供丰富量化策略,快速精度对齐
a)旋转 Quarot 算法:对权重做 Hadamard 旋转与 LayerNorm 融合,降低激活异常值、改善后续量化的数值分布。
b)多种离群值抑制算法:采用 Flex_AWQ_SSZ 算法和 Flex_Smooth_Quant 算法混合策略,权重采用 SSZ(Smooth Scale Zero)标定,支持缩放因子等超参,在低比特下兼顾精度与稳定性。
c)线性层量化策略:对单层 Linear 做 W8A8 或 W4A8,激活值量化常用 per-token 粒度、minimax 算法;权重量化 per-channel 粒度,msModelSlim 工具提供量化策略配置化,可按模块自由配置不同量化粒度、算法等。
高性能融合算子
1.Lightning Indexer融合Kernel
长序列场景下 TopK 操作会成为瓶颈,我们引入了 Lightning Indexer 融合算子,包含 Score Batchmatmul、ReLU、ReduceSum、TopK 等操作,使计算耗时流水掩盖掉其他操作的耗时,拿到计算流水收益。
2.Sparse Flash Attention 融合 Kernel
我们引入 Sparse Flash Attention,包含从完整 KVCache 中选取 TopK 相关 Token 和计算稀疏 Flash Attention 操作。实现在离散聚合访存时,计算耗时掩盖其他操作的耗时,获取流水并行加速收益。
3.MLAPO 融合 Kernel GLM-5 在 Sparse Flash Attention 预处理阶段将 query 和 KV 进行降维操作,并且把 query 降维后的激活值传递给 Indexer 模块进行稀疏选择处理。MLAPO 通过 VV 融合(多个 Vector 算子融合)技术,将前处理过程中的 13 个小算子直接融合成一个超级大算子。除此之外,在 MLAPO 算子内部,通过 Vector 和 Cube 计算单元的并行处理及流水优化,进一步提升算子整体性能。
vLLM 推理引擎
1.Prefix Cache
在 vLLM 框架中,利用 Cache 结构优化、空闲双端队列等技术,将 KV Cache 的存储空间从有限的 HBM 显存扩展到更大的系统内存(如 DDR)或共享存储,显著减少了计算资源浪费和端到端延迟,特别是在 GLM-5 的长序列场景下有更大的性能优化。
2.异步调度
在推理的 Decoding 阶段,两次 Decode 步骤之间往往会由于 CPU 和 NPU 之间的同步操作带来很大的调度空泡,例如在当前 Decode 步骤的结尾,会将 sample 操作的数据从 NPU 拷贝到 CPU(即 D2H 操作)并最终返回,下一步 Decode 是需要等到 Sample 完成之后才开始执行,从而导致中间存在调度因素带来的空泡。vLLM Ascend 框架需要尽可能掩盖 CPU 和 NPU 之间的同步操作,并且通过异步调度将当前 Decode 步骤的模型执行过程和下一步 Decode 的准备过程放在一起并行执行,利用下一步 Decode 的准备过程(prepare_input、update_states 等操作)的提前执行来掩盖当前 Decode 步骤模型执行过程中的 D2H 操作,从而最小化 Decode 步骤之间的调度空泡。
3.局部TP并行切分
选用 Attention DP + MoE EP 部署。由于 O_proj 和 LM_Head 权重内存较大,且在 Decode 阶段表现为明显的访存瓶颈,本实践选用局部 TP 并行。同时为了降低设备内存占用,Embedding 层同样使用 TP 切分。为了尽可能地减小 TP 并行带来的通信开销,TP 域控制在高速互联 HCCS 域内。
4.FlashComm
通过将 AllReduce 通信过程按原理拆分为 ReduceScatter 和 AllGather,并与后续计算模块进行深度算子融合与协同优化,降低通信数据量和中间算子的计算量,从而显著降低通信延迟并提升大模型的推理性能。
SGLang 推理引擎
1.多流并行架构
Sparse Attention Indexer 部分采用多流并行策略,主流负责 Key 向量的计算与管理,包括 Key 投影、RoPE 位置编码、KV 缓存的读写操作,以及最终的稀疏索引器调用。备用流专注于 Query 向量的异步计算,并行执行 Query 投影和 RoPE 位置编码,通过事件机制与主流同步,有效隐藏了 Query 路径的计算延迟。权重流独立计算索引器的权重投影,并行计算进一步提升硬件利用效率。
2.MTP MultiToken Prediction 克服了传统模型每一步都依赖前一步的输出问题;单次推理生成多个 token 将生成序列所需时间大幅度减少。在长序列推理中还通过提高计算密度优化了 NPU 并行效率,提高算力利用率。
3.Two-Batch-overlap(TBO)
TBO 将请求拆分为规模更小的 batchs,交替执行注意力计算与分发/合并操作,从而在不产生峰值内存激增的情况下提高整体吞吐量。此外,在 NPU 阻断通信前,向 NPU 提交计算任务,确保了 NPU 计算单元在通信过程中保持活跃。
4.RadixCache Prefix Sharing 实现了 KV 缓存的高效重用,RadixCache 使用树结构来存储和匹配请求间的前缀,允许共享输入序列的多个请求重用之前计算的 KV 缓存条目。这减少了冗余的计算并提升了 NPU 内存的使用。在长序列请求场景下性能提升更为明显。
面对 GLM-5 上线后瞬间涌入的数以百万计的真实流量冲击,接住这波算力挤兑并完成紧急扩容的,正是这些国产芯片集群。未来,智谱与华为将持续深化合作,围绕模型训练、推理优化及产业落地等方向展开联合攻关,共同推动国产大模型与国产算力的协同演进,为中国 AI 产业构建自主可控的全栈技术生态。
0人