东吴证券：大模型全流程国产算力训练重点关注适配前景

东吴证券（601555）发布研报称，DeepSeek V4是大模型在训练侧使用国产算力从0到1的尝试。此前国产大模型采用国产算力均用于推理侧，而DeepSeek本次从模型内核到训练架构、到推理全流程均出现了国产算力的影子，是重要里程碑。因此，无论DeepSeek V4表现如何，战略意义均十分重要，对国产算力的训练适配前景才是关注的重点。

东吴证券（601555）主要观点如下：

DeepSeek V4首次由华为昇腾芯片参与训练

DeepSeek V4Flash是首个公开说明训练侧使用国产算力的通用大模型，通过三大核心设计实现了去英伟达（NVDA）化的技术布局。(1)引入MXFP4量化感知训练，对MoE专家权重与索引器QK路径实现FP4量化，降低了对NVIDIAFP8生态的绑定，可无缝适配华为昇腾（886058）、寒武纪（688256）等国产芯片;(2)采用TileLang领域专用语言开发底层算子，脱离CUDA生态强绑定，可跨硬件平台编译，降低向国产芯片的迁移成本;(3)自研MegaMoE2融合内核，实现专家并行的细粒度通信计算重叠，已在华为昇腾（886058）平台完成适配跑通，解决了国产硬件环境下MoE模型的通信瓶颈。

性能表现：整体跻身全球第一梯队，多项核心指标比肩甚至超越国际顶级闭源模型

(1)知识储备：DeepSeek-V4-Pro-Max在SimpleQA-Verified基准上取得57.9分，大幅领先其他主流开源模型;中文SimpleQA得分达84.4，大幅缩小与Gemini-3.1-Pro的差距，MMLU-Pro、GPQADiamond等教育知识基准均领跑开源赛道。(2)推理与代码能力：Pro-Max版本Codeforces评分达3206，位列人类选手排行榜第23名，LiveCodeBench Pass达93.5，IMOAnswerBench得分89.8仅略逊于GPT-5.4;Flash版本Codeforces评分也达到3052，推理性能追平GPT-5.2等闭源模型。(3)Agent能力：V4Pro-Max的SWE-bench Verified任务解决分数达80.6，与Claude Opus4.6基本持平，Terminal Bench2.0、MCPAtlas Public等基准均处于开源模型第一梯队。(4)长上下文能力：1M token场景下，MRCR、CorpusQA得分分别为83.5、62.0，超越Gemini-3.1-Pro，且128K上下文内检索能力保持高度稳定。(5)中文创作：其功能性写作对Gemini-3.1-Pro胜率达62.7%，创意写作质量胜率高达77.5%，仅在高难度多轮约束场景略逊于Claude Opus4.5。

模型技术架构：CSA+HCA+mHC进一步压缩推理成本

(1)首创CSA+HCA交替的混合注意力架构。通过分层KV缓存压缩与稀疏注意力结合，在1M token上下文场景下，Pro版本单token推理FLOPs仅为V3.2的27%，KV缓存占用降至10%，Flash版本更是分别降至10%与7%，从底层解决了超长上下文的算力瓶颈;(2)引入mHC流形约束超连接升级传统残差结构，提升了深层模型的信号传播稳定性与表达能力，同时采用Muon优化器搭配预期性路由、SwiGLU钳制技术，解决了万亿参数MoE模型训练的Loss Spike难题;(3)采用领域专家独立训练+全词表在线蒸馏的后训练范式，规避了多能力融合的性能退化问题。

风险提示：大模型迭代节奏不及预期;国产算力软硬件生态适配进度不及预期;大模型行业市场竞争持续加剧;行业政策监管持续趋严

问财摘要