阿里云6篇论文入选全球网络系统顶会NSDI 2026

近日，在全球顶级网络系统会议NSDI 2026上，阿里云基础设施网络团队共发表6篇主会论文。论文围绕智算训练问题诊断与集合通信优化，深入推理场景工作负载分析及边缘流量接入加速，系统覆盖云计算产业级关键技术难题。

以下为6篇参会论文的简要介绍

EROICA：大模型训练高精度在线性能诊断系统

在此次入选的文章中，《EROICA: Online Performance Troubleshooting for Large-scale Model Training》展示近两年在阿里云大模型训练场景的基础设施+训练框架深度融合诊断体系。帮助诊断了80个大模型训练场景下的疑难性能问题，顺利支持了多个内部和外部客户的大规模模型训练。

大模型训练的性能诊断在业界面临很大挑战，涉及 GPU、网络、代码、配置等软硬件全栈交互。现有诊断方法都基于在线监控或离线profile。在线监控较轻，能做到实时的集群全覆盖，但信息采样粒度粗（通常为秒级到分钟级），无法捕捉代码执行细节，因而难以定位根因；离线profile信息精度高（微秒级）、覆盖所有函数的执行细节，但数据量和overhead都极大，难以在合理时间内消费（883434）。

图｜EROICA核心工作流程

EROICA结合了在线监控和离线profile两者的优势，是首个基于在线profile的大模型性能诊断系统。它首先监控任务训练吞吐，仅在吞吐降低时短时间开启在线profile。为了实现在1TB/s的profile数据中准确找到性能问题根因，EROICA从profile数据中识别出关键函数，对所有训练进程的函数“行为向量”进行对比分析，数据量相比原始profile数据降低105倍。在对比分析中，EROICA基于“行为向量”的期望范围和离群点分析得到诊断结果。

EROICA上线已超过1年半，覆盖阿里云全部训练集群，成功诊断80个现有方法未能诊断的疑难性能问题，且支持各种GPU品牌型号、训练框架、Host架构。

ServeGen：揭秘真实推理场景工作负载

LLM 推理服务实际工作负载对于驱动和评估推理技术及系统至关重要。

论文《ServeGen: Workload Characterization and Generation of Large Language Model Serving in Production》针对大模型推理场景对于线上workload进行了深入分析，并实现了高保真的生产级workload生成。ServeGen 在实际场景中发现了可能被忽视的全新设计启示，已在 https://github.com/alibaba/ServeGen 开源。

图｜ServeGen核心工作流程

Come Hell or Still Water：云存储长尾延迟针对性优化

论文《Come Hell or Still Water: Alleviating Tail Latency in Cloud Block（XYZ） Store》分析了EBS场景造成I/O长尾的核心原因。在过载场景下，极少数虚拟磁盘（VDs）产生的工作负载爆发（bursts）是根本原因。在欠载场景下，事件循环（event-loop）线程模型导致了不必要的处理延迟。通过设计双桶限流和任务差异化调度，将过载场景下的长尾延迟降低97%，将欠载场景下的长尾延迟降低43%。

图｜Come Hell or Still Water核心功能模块

HeteCCL：异构GPU集群的高性能集合通信调度

训练大语言模型需要海量的计算与网络资源，迫使开发者使用异构硬件，这导致跨节点的同步训练极具挑战性。

论文《HeteCCL: Synthesizing Near-Optimal Collective Communication Schedules for Heterogeneous GPU Clusters》提出设计HeteCCL，针对异构 GPU 集群的统一集合通信算法生成方法，通过精细建模拓扑与带宽并结合约束求解与搜索空间剪枝，显著提升通信性能(多达4.4x提升)与生成速度(90%加速)。

图｜HeteCCL核心工作流程

AnyPro：全球Anycast流量调度优化

IP Anycast 通过在多个地理分布的节点（PoP）广播相同的 IP 前缀，从而显著提升了服务的抗灾弹性、负载均衡及响应速度。

论文《AnyPro: Preference-Preserving Anycast Optimization based on Strategic AS-Path Prepending》通过分析该过程中的路由变化，系统推导出一系列 ASPP 约束，以引导客户端流量流向目标站点，并计算出最优的 ASPP 配置。AnyPro将90分位RTT相对无ASPP基线降低37.7%，最终配置的落点准确率提升至0.85。

图｜AnyPro核心工作流程

S2Sim：大规模分布式路由配置自动诊断与修复

尽管在自动验证分布式路由配置是否符合特定意图（intents）方面已取得了长足进展，但诊断和修复配置错误依然高度依赖人工且十分耗时。

为了填补这一空白，阿里云基础网络团队在论文《Diagnosing and Repairing Distributed Routing Configurations Using Selective Symbolic Simulation》提出了S2Sim，这是一个用于自动诊断和修复路由配置的新型系统。S2Sim能够准确高效地诊断并修复真实的配置错误：在 O(100)节点的真实网络中耗时不超过 20 秒，在 O(1000)节点的合成网络中耗时不超过 15 分钟。

图｜S2Sim典型符号仿真场景示例

NSDI会议

NSDI是USENIX协会举办的国际顶级网络系统学术会议（全称USENIX Symposium on Networked Systems Design and Implementation），与ACM SIGCOMM并列为计算机网络和系统研究领域最高水平的两大会议。同时也是中国计算机学会（CCF）评为A类的推荐会议，代表了最前沿的科研水平和影响力。