据中科曙光(603019)消息,我国AI算力集群正迈向万卡乃至十万卡规模,而作为集群“神经枢纽”的高速互连网络,其性能与扩展性成为关键制约。中科曙光(603019)近日推出国内首款类InfiniBand原生无损RDMA高速网络scaleFabric,旨在为超大规模智算集群构建高效稳定的网络底座,填补了国内相关领域的技术空白。
性能对标国际主流,夯实组网硬实力。scaleFabric的带宽与延迟指标对齐国际主流产品,其交换芯片端口密度达80口400G,较同类产品提升25%。它沿用与IB一致的信用流控及链路层重传机制,实现真正无损传输,相比RoCE网络更适配超大规模智算场景,并可做到即插即用,降低用户优化成本。
生态兼容与扩展突破,释放核心实用价值。该网络提供原生RDMA verbs接口,完美兼容现有IB应用生态,使并行计算、大模型训练推理等应用无需修改代码即可无缝迁移。在扩展能力上,它突破IB协议五万卡级的局限,单子网支持超十万卡扩展,通过多轨技术可实现百万卡级集群部署。该能力已在曙光scaleX万卡超集群中得到验证,支撑系统总算力突破5EFlops。
自主创新赋能,兼顾可靠与成本优势。面对高端SerDes IP制约,曙光自研了112G PAM4高速SerDes IP,从底层保障信号可靠性。针对光模块故障,研发了毫秒级链路故障路由恢复技术,且恢复时间不随网络规模增长而延长,结合数字孪生(885820)运维系统,将集群可用性提升至99.99%。同时,依托端口密度优势,其组网成本较IB降低约30%。
scaleFabric的发布开启了IB网络国产化替代的新篇章。曙光表示将秉持开放架构理念,与合作伙伴共享技术成果,推动产业链协同创新,加速我国超算与智算产业的自主化进程。
原文:特写|万卡集群的“神经枢纽”(来源:中科曙光(603019))
