同花顺 Logo
AIME助手
问财助手
阿里云6篇论文入选全球网络系统顶会NSDI 2026
2026-05-14 19:48:29
来源:阿里云
分享
文章提及标的
消费--
Block--

近日,在全球顶级网络系统会议NSDI 2026上,阿里云基础设施网络团队共发表6篇主会论文。论文围绕智算训练问题诊断与集合通信优化,深入推理场景工作负载分析及边缘流量接入加速,系统覆盖云计算产业级关键技术难题。

以下为6篇参会论文的简要介绍

EROICA:大模型训练高精度在线性能诊断系统

在此次入选的文章中,《EROICA: Online Performance Troubleshooting for Large-scale Model Training》展示近两年在阿里云大模型训练场景的基础设施+训练框架深度融合诊断体系。帮助诊断了80个大模型训练场景下的疑难性能问题,顺利支持了多个内部和外部客户的大规模模型训练。

大模型训练的性能诊断在业界面临很大挑战,涉及 GPU、网络、代码、配置等软硬件全栈交互。现有诊断方法都基于在线监控或离线profile。在线监控较轻,能做到实时的集群全覆盖,但信息采样粒度粗(通常为秒级到分钟级),无法捕捉代码执行细节,因而难以定位根因;离线profile信息精度高(微秒级)、覆盖所有函数的执行细节,但数据量和overhead都极大,难以在合理时间内消费(883434)

图|EROICA核心工作流程

EROICA结合了在线监控和离线profile两者的优势,是首个基于在线profile的大模型性能诊断系统。它首先监控任务训练吞吐,仅在吞吐降低时短时间开启在线profile。为了实现在1TB/s的profile数据中准确找到性能问题根因,EROICA从profile数据中识别出关键函数,对所有训练进程的函数“行为向量”进行对比分析,数据量相比原始profile数据降低105倍。在对比分析中,EROICA基于“行为向量”的期望范围和离群点分析得到诊断结果。

EROICA上线已超过1年半,覆盖阿里云全部训练集群,成功诊断80个现有方法未能诊断的疑难性能问题,且支持各种GPU品牌型号、训练框架、Host架构。

ServeGen:揭秘真实推理场景工作负载

LLM 推理服务实际工作负载对于驱动和评估推理技术及系统至关重要。

论文《ServeGen: Workload Characterization and Generation of Large Language Model Serving in Production》针对大模型推理场景对于线上workload进行了深入分析,并实现了高保真的生产级workload生成。ServeGen 在实际场景中发现了可能被忽视的全新设计启示,已在 https://github.com/alibaba/ServeGen 开源。

图|ServeGen核心工作流程

Come Hell or Still Water:云存储长尾延迟针对性优化

论文《Come Hell or Still Water: Alleviating Tail Latency in Cloud Block(XYZ) Store》分析了EBS场景造成I/O长尾的核心原因。在过载场景下,极少数虚拟磁盘(VDs)产生的工作负载爆发(bursts)是根本原因。在欠载场景下,事件循环(event-loop)线程模型导致了不必要的处理延迟。通过设计双桶限流和任务差异化调度,将过载场景下的长尾延迟降低97%,将欠载场景下的长尾延迟降低43%。

图|Come Hell or Still Water核心功能模块

HeteCCL:异构GPU集群的高性能集合通信调度

训练大语言模型需要海量的计算与网络资源,迫使开发者使用异构硬件,这导致跨节点的同步训练极具挑战性。

论文《HeteCCL: Synthesizing Near-Optimal Collective Communication Schedules for Heterogeneous GPU Clusters》提出设计HeteCCL,针对异构 GPU 集群的统一集合通信算法生成方法,通过精细建模拓扑与带宽并结合约束求解与搜索空间剪枝,显著提升通信性能(多达4.4x提升)与生成速度(90%加速)。

图|HeteCCL核心工作流程

AnyPro:全球Anycast流量调度优化

IP Anycast 通过在多个地理分布的节点(PoP)广播相同的 IP 前缀,从而显著提升了服务的抗灾弹性、负载均衡及响应速度。

论文《AnyPro: Preference-Preserving Anycast Optimization based on Strategic AS-Path Prepending》通过分析该过程中的路由变化,系统推导出一系列 ASPP 约束,以引导客户端流量流向目标站点,并计算出最优的 ASPP 配置。AnyPro将90分位RTT相对无ASPP基线降低37.7%,最终配置的落点准确率提升至0.85。

图|AnyPro核心工作流程

S2Sim:大规模分布式路由配置自动诊断与修复

尽管在自动验证分布式路由配置是否符合特定意图(intents)方面已取得了长足进展,但诊断和修复配置错误依然高度依赖人工且十分耗时。

为了填补这一空白,阿里云基础网络团队在论文《Diagnosing and Repairing Distributed Routing Configurations Using Selective Symbolic Simulation》提出了S2Sim,这是一个用于自动诊断和修复路由配置的新型系统。S2Sim能够准确高效地诊断并修复真实的配置错误:在 O(100)节点的真实网络中耗时不超过 20 秒,在 O(1000)节点的合成网络中耗时不超过 15 分钟。

图|S2Sim典型符号仿真场景示例

NSDI会议

NSDI是USENIX协会举办的国际顶级网络系统学术会议(全称USENIX Symposium on Networked Systems Design and Implementation),与ACM SIGCOMM并列为计算机网络和系统研究领域最高水平的两大会议。同时也是中国计算机学会(CCF)评为A类的推荐会议,代表了最前沿的科研水平和影响力。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号-4
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈