近日,DeepSeek-V4 Flash在摩尔线程(688795)MTT S5000平台上的推理性能实现显著跃迁。5月下旬,InferenceX周度测试数据显示,在统一测试口径下,单并发场景模型单GPU吞吐较4月底基线提升约18.8倍,高批次并发场景下提升幅度进一步放大至近80倍;同时,首字时延(TTFT)、每字时延(TPOT)与端到端完成时间同步实现数量级下降。在8k/1k上下文长度、PD分离部署形态下,模型验证通过,线性扩展能力也得到确认。
图示:SemiAnalysis旗下InferenceX性能测试平台的连续测试数据显示,在统一测试口径下,DeepSeek-V4 Flash模型在摩尔线程(688795)MTT S5000平台(基于 MUSA 软件栈)上经过多轮推理性能优化,实现了推理吞吐的持续提升,并在数周内将单GPU吞吐能力提升至早期基线的数十倍。
这组数据的核心意义在于“吞吐持续上升”、“时延持续下降”——这意味着优化已深入模型执行主链路,而非停留在表层调参。其背后是FlashMLA、DeepGEMM、DeepEP等核心算法模块在DeepSeek-V4推理场景的快速深度优化,TileKernels/TileLang现有实现的高效复用,以及围绕DeepSeek-V4模型结构持续高效率高质量补齐自定义算子实现的系统性工程能力释放。这一系列提升,是算子打磨、框架调优、持续测试与性能回归深度协同的结果,也标志着一条可持续演进的优化链路正在形成。
摩尔线程(688795)以全功能GPU技术路线为根基,持续将前沿模型的推理潜力转化为可落地、可复用的工程能力。从4月底建立性能基线,到5月下旬多维度指标持续收敛,MTT S5000对DeepSeek-V4的完整支撑能力正在逐步夯实,为国产AI算力底座注入更扎实的推理性能。
Day0适配完成,真正的工作才开始
在大模型推理场景中,适配成功通常意味着主链路已经跑通、精度已经对齐——这是一切后续工作的前提,但距离“可持续演进的高质量推理实现”仍然相当遥远。模型结构、注意力路径、MoE 路由、量化链路以及长上下文压缩路径,都会在真实运行中持续暴露新的开销与瓶颈。
因此,真正有价值的工作方式,不是停留在某个静态结果上,而是在统一测试入口上持续观察、持续分析、持续回归,把优化过程本身沉淀为可管理、可复用、可继续推进的工程资产。
DeepSeek-V4 Flash推理性能的推进过程正体现了这一点:
inferenceX提供了持续的基准测试(Benchmark(BHE))入口与结构化结果沉淀;
SGLang本地代码中的DeepSeek-V4/MUSA路径也在不断收敛出更适合该模型结构的实现;
性能结果的变化可以逐步与版本、实现路径和具体优化点建立对应关系。
这条链路所呈现出的,不只是阶段性的性能变化,更是联合优化如何发生、如何沉淀、如何持续推进的完整方法论。
从周度数据看,优化是持续发生的
在InferenceX的统一口径下,DeepSeek-V4 Flash的 1k/1k 数据已经形成连续时间序列。测试配置保持为dsv4flash + sglang + s5000 + fp8 + isl=1024 + osl=1024,因此不同日期之间的结果具备直接可比性。
从周度趋势来看,这组结果最值得关注的并不是某个时间点的绝对值,而是多个核心指标在同一阶段内同时朝着更优方向收敛。吞吐持续抬升,TTFT、TPOT与端到端时延同步下降,说明优化并不是停留在单点调参或局部修补,而是在真实推理主链路上逐步释放出来。
以单并发场景为例,从4月底到5月下旬,模型单GPU吞吐提升约18.8倍,TTFT、TPOT与端到端完成时间也都出现了数量级改善。这种“吞吐上升、时延下降”的同步变化,比单一峰值数字更能说明问题:底层优化已经开始在模型执行主链路中形成稳定收益。
如果把图表中的变化连起来看,趋势也比较清晰:
早期阶段首先完成主链路打通,性能基线建立起来;
随着框架路径、热点算子与执行开销逐步收敛,中低并发场景的吞吐和时延同步改善;
再往后,优化收益开始向更高并发扩展,规模化能力逐步释放。
在更高batch形态下,单GPU吞吐的提升幅度还可以进一步放大,阶段性结果已经接近80倍。这说明随着执行形态更充分地释放暴露出框架调度、热点算子和运行期组织的收益,联合优化带来的放大效应会更加明显。
这组周度变化勾勒出的,并不是若干离散结果,而是一条持续推进的优化轨迹。
从框架到算子:联合优化如何转化为服务收益
如果只看到若干阶段性的算子收益,很容易把模型的优化理解成一组彼此独立的局部提速。但在真实推理服务中,局部模块变快并不天然等于整体收益成立。真正决定这些优化能否稳定转化为吞吐提升、时延收敛和更大规模承载能力的,首先是框架层的组织能力:执行路径能否稳定收敛,不同阶段的运行方式能否顺畅切换,热点模块能否在合适场景下进入更优实现,往往决定了后续算子收益能否真正落到服务主链路上。
结合现有实现与阶段性材料,这条联合优化路径至少包含三层相互配合的工作。第一层是框架执行路径的收敛,包括图执行能力开启、运行期路径裁剪以及关键运行时组织;第二层是面向服务形态的能力补齐,例如MTP支持、长上下文相关链路以及不同阶段下的执行切换;第三层才是围绕具体热点模块,把FlashMLA、DeepGEMM、DeepEP、TileKernels/TileLang 以及 DeepSeek-V4特定路径稳定接入主执行流。
也正因为如此,这一章节更值得关注的,并不是“又增加了哪些局部优化模块”,而是框架与算子如何共同把收益落到真实推理链路中,实现从底层到应用的全面性能跃升。结合现有实现与阶段性测试记录,可以把这条路径概括为四类相互呼应的联合优化样式。
1、先让优化收益在运行时稳定“兑现”
很多优化收益并不是先从峰值性能开始体现,而是先体现在运行时稳定性上。对于DeepSeek V4这类路径复杂、分支较多的模型来说,如果图执行过程容易被同步动作打断,或者路由相关逻辑频繁落回不稳定路径,那么后续再好的后端实现也很难稳定释放收益。
DeepSeek-V4 Flash在这部分的重点,是先把框架主路径收敛下来:优先复用更成熟的实现,不可用时再回退到MUSA / TileLang后端,并针对需要兼顾图执行稳定性的部分补齐必要的兼容性处理,避免同步动作频繁打断执行。这样做的意义不只是减少某次执行的卡顿或延迟,而是为后续更多优化路径提供稳定的运行时承载。
从外部视角看,这类工作不像典型的算子加速案例那样直观,但它直接决定了优化收益能否在服务中稳定“兑现”。很多时候,框架对执行路径、运行时组织与兼容机制的处理,本身就是后端优化能否真正释放收益的前提。
2、把关键服务能力纳入主执行流
联合优化的第二个重点,不是单点提速,而是把更贴近真实部署的能力真正纳入主执行流。MTP支持、长上下文相关路径以及不同执行阶段之间的切换,本质上都属于框架层的能力建设:它们决定了系统能以什么方式组织token生成、如何承接更长输入,以及怎样把不同场景下的后端收益有效承接。
DeepSeek-V4 Flash在这部分的演进,体现的正是这种能力补齐。压缩相关信息、不同粒度的运行时组织信息、FlashMLA相关运行时信息,以及长上下文执行所需的关键调度信息,都已经进入长上下文主路径的核心逻辑。压缩不再是额外附着在模型后的处理动作,而是直接成为主执行链路的一部分;MTP相关能力的接入,也让吞吐释放不再只依赖单一路径,而是开始具备更完整的服务化扩展空间。
这类优化的价值,不只是“某个后端实现更快”,而是框架已经能够把长上下文、分阶段执行和更复杂的生成路径组织成稳定能力。也正因为有了这样的组织层,后端优化才更容易在真实服务负载上持续兑现。
3、把高频热点稳定接入主链路
在框架路径逐步稳定之后,热点算子的接入方式就变得更关键,直接影响着整个推理链路的效率上限。RMSNorm、RoPE与 FlashMLA这类模块都处在高频主路径上,一旦这里仍然存在额外的数据整理、包装层开销或不合适的后端路径,损失就会被迅速放大到整个推理过程中。
DeepSeek-V4 Flash在这部分的优化重点,是让框架先基于执行阶段和输入形态识别更合适的后端路径,再由更贴合场景的实现承接热点负载。这样做的意义在于,这些模块不再被当成固定的通用算子调用,而是被纳入真实推理主路径的整体调度之中。
阶段性测试记录也印证了这一点。融合后的归一化与位置编码路径曾长期受制于额外的数据展开开销与软件栈包装开销;在张量表达方式与后端接入路径调整之后,这类高频基础路径的额外负担被显著压低。类似地,在更贴近长上下文服务热点的缓存写入路径上,FlashMLA相关优化也持续体现出更高效的带宽利用与更稳定的主链路承接能力。这里减少的并不只是某个局部模块的执行时间,更是整条高频路径上的额外负担。
4、让热点模块具备按场景切换的能力
MoE路由、激活融合以及attention pre/post处理都属于高频热点,但不同输入规模、不同阶段、不同数据类型下的最优路径并不一致。如果仍然用单一路径覆盖全部场景,往往会在某些关键负载点上失去效率。因此,这一类路径更重要的目标,是让热点模块具备按场景切换的能力。
DeepSeek-V4 Flash在这部分已经形成比较清晰的下沉方式。相关融合路由路径并不是无条件启用,而是会根据输入形态、数据布局以及不同负载规模下的适配条件决定是否进入优化路径;SwiGLU quant 也已经分化出多种后端实现;MHC前后处理路径则围绕不同并行组织方式、兼容方案以及不同执行阶段下的并行策略继续细化。这样的设计重点并不在于制造一个覆盖全部场景的“超级实现”,而在于把几个真正高频的热点模块拆开下沉,再由框架层根据输入规模、布局和运行阶段完成组织与选择。
把这四类案例放在一起看,会更容易理解 DeepSeek-V4 Flash的联合优化逻辑:框架执行路径负责先把运行时稳定下来,MTP与长上下文链路负责补齐更贴近服务化场景的能力,热点算子接入负责压低主链路固定成本,而MoE相关模块则负责把不同负载点上的效率持续抬高。这四者相辅相成,共同构成了全面、深度的优化体系。真正起作用的,并不是某一个局部提速点,而是框架组织、执行路径选择与热点模块优化开始相互配合。它们并不是彼此独立的局部修补,而是在同一条推理链路中逐步收敛出来的协同结果。
8K~1M上下文长度验证:PD分离的线性扩展能力
除了1k/1k的周度追踪数据,我们也采用 InferenceX 的统一测试方法,对isl=8K~1M, osl=1K 这类更长输入用例进行了阶段性验证。结合PD分离部署形态,这组观察更适合放在服务化运行条件下理解,用来说明在更长输入、更贴近实际部署的场景中, DeepSeek-V4 Flash的推理链路已经具备进一步展开的基础。
从目前的表现看,这类 8k/1k 用例至少传递出三层信息。第一,PD分离相关链路已经不再停留在单点验证阶段,而是开始具备更完整的部署成熟度,可以支撑对更长输入场景的持续观察。第二,从单机到更高并发的变化方向,与前文 1k/1k 周度趋势是基本一致的:随着并发提升,吞吐能力继续放大,说明联合优化的收益并没有局限在单一负载点。第三,在更高并发条件下,整体扩展趋势已经呈现出较好的线性可扩展性,这意味着PD分离场景下的执行链路、调度组织与后端实现之间正在形成更稳定的协同基础。
后续方向:优化路径如何继续演进
从现有周度趋势、阶段性Benchmark(BHE)结果以及框架与算子两侧的实现收敛情况来看, DeepSeek-V4 Flash推理性能优化的推进已经形成了几项比较清晰的判断:其一,围绕该模型的优化并不是单次跑通后的局部修补,而是在统一测试方法下持续推进的演进过程,体现了系统化、工程化的优化理念;其二,面向DeepSeek-V4 / MUSA的专用路径已经覆盖RMSNorm、RoPE、compress、MoE routing、SwiGLU quant、MHC等多个关键方向形成了全面的优化覆盖;其三,这些收益并不是零散算子替换的简单叠加,而是框架调度逻辑与后端实现逐步协同后的结果。
接下来更值得关注的,不再只是“还能不能继续变快”,而是哪些优化点最能解释阶段性跃迁、哪些路径最能稳定复用到更广的部署场景中。沿着这条链路继续推进时,尤其值得关注三个方向:关键执行路径切换前后的收益是否能够形成更直接的对照,主要性能跃迁点与具体优化项之间能否建立更清晰的对应关系,以及哪些热点路径最值得优先投入优化资源。
这也意味着,围绕 DeepSeek-V4 Flash形成的优化路径,正在从阶段性收益逐步沉淀为可复用、可延续的工程能力。
结语
DeepSeek-V4 Flash在MTT S5000上的持续优化,对应着一条从模型适配、性能基线建立到持续优化的完整工程链路。吞吐提升与时延收敛并不是彼此孤立的结果,而是测试体系、框架路径与后端算子协同作用后的自然体现。
当持续验证、路径选择与算子实现开始形成闭环,推理优化也就不再停留在零散的局部改进,而会逐步沉淀为稳定、可延续的工程能力,最终赋能更广阔的AI应用场景。
▼ 开发者可下载镜像进行体验:
registry.mthreads.com/mcconline/inference/sglang:v0.5.6.post2-ph1-4.3.5-torch2.9.0-20260530
▼ 关于摩尔线程
摩尔线程(688795)以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。
我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能(885728)和数字孪生(885820)的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。
