四大升级！腾讯星脉网络2.0构筑10万卡高性能AI计算集群

2024-07-03 13:12:56 来源： C114通信网

　　C114讯 7月2日消息（九九）AIGC的火热推动着AI大模型参数量从亿级到万亿级的飙升。面对千亿、万亿参数规模的大模型训练，仅仅是单次计算迭代内梯度同步需要的通信量就达到百GB量级，此外还有各种并行模式、加速框架引入的通信需求，使得传统低速网络的带宽远远无法支撑GPU集群的高效计算。只有不断提升通信效率、把通信成本降到最低，才能充分利用计算资源。因此必须构建一个全新的高性能网络底座，用高速网络的大带宽助推集群计算的高效率。

　　在此背景下，腾讯7月1日宣布其自研星脉高性能计算网络全面升级，升级后的星脉网络2.0搭载全自研的网络设备与AI算力网卡，支持超10万卡大规模组网，网络通信效率比上一代提升60%，让大模型训练效率提升20%。

　　腾讯云副总裁王亚晨表示，AI大模型就像是一场F1比赛，腾讯云专门设计了星脉高性能算力网络“赛道”，并自研了TiTa和TCCL网络协议作为“道路控制系统与专业车队”，共同让“腾讯云高性能计算集群HCC的GPU服务器”这台马力强大的F1赛车发挥最大的算力性能，助力客户在AI大模型的竞争中遥遥领先。同时配备了专业的抢修队，一旦故障发生，快速定位和抢救，让赛事快速恢复运行。

　　四大组件全面升级，助力AI训练提速

　　王亚晨介绍，腾讯自研星脉网络是一套软硬协同的高性能网络体系，包括自研网络设备、通信协议、通信库以及运营系统四大关键组件，每个组件均采用了业界首创的腾讯核心技术。

　　硬件方面，腾讯星脉网络是业界首个采用全自研网络设备的高性能网络，包括交换机、自研光模块、网卡等。自研交换机从25.6T容量升级到51.2T，同时在业界率先引入400G硅光模块，速率翻倍，让网络延迟降低40%，支持超10万卡大规模组网。

　　值得注意的是，星脉网络2.0支持搭载腾讯自研的全新算力网卡，这是公共云业内首款为AI训练设计的网卡，网卡采用最新一代 FPGA 芯片，整卡带宽可达400Gbps，具备业界最高的3.2T整机通信带宽。该自研算力网卡运行着新一代腾讯自研通信协议TiTa，并搭载了腾讯独有的主动拥塞控制算法。

　　相比起上一代，TiTa协议2.0从部署在交换机转移到了端侧的网卡上，从原来的被动拥塞算法升级到了更为智能的主动拥塞控制算法，可主动调整数据包发送速率，从而避免网络拥堵；并通过拥堵智能调度，实现网络拥塞快速自愈。这让混合专家（MoE）模型训练下网络通信性能相比1.0提升30%，带来训练效率10%的提升。

　　专为星脉网络设计的高性能集合通信库TCCL，也进行了升级。通过创新的NVLINK+NET异构并行通信、Auto-Tune Network Expert自适应算法等通信库的升级，在MoE模型训练下，给星脉网络带来了30%的通信效率提升，让模型训练效率提升10%。

　　TCCL 对外的接口跟原生通信库接口完全一致的，主流AI大模型客户不需要额外适配，只需要替换通信库就可以发挥星脉的能力。

　　通信协议TiTa与通信库TCCL的升级带来的效果叠加，让星脉网络的通信效率提升60%，MoE大模型训练效率提升20%。

　　网络的故障或任何单点的故障，将导致整个集群不可用，让模型训练暂停。因此，网络的高可用、稳定性也极为重要。为确保星脉网络的高可用，腾讯云自研了端到端的全栈网络运营系统，这也是星脉网络第四大关键组件。

　　运营系统2.0新增腾讯独家技术灵境仿真平台，从原来仅能定位网络问题，到可定位GPU节点问题，实现万卡级训练故障卡顿、慢节点分钟级定位。这对星脉网络进行了360度无死角的立体监控，可以更快发现与定位网络问题，让整体故障的排查时间再次大幅缩短，故障时尽快恢复续训。

　　打造最适合大模型的云

　　据了解，目前，腾讯云已经面向AIGC场景推出了基于星脉网络的大模型训练集群HCC、AIGC存储解决方案、向量数据库以及行业大模型服务MaaS、天御AIGC内容安全解决方案等大模型全链路云服务。超过80%的头部大模型企业使用了腾讯云服务。

　　大模型训练集群在HCC将高性能云服务器作为节点，满配最新代次的GPU，节点之间通过自研星脉网络互联，提供高性能、高带宽和低延迟的一体化高性能计算产品。

　　腾讯云AIGC云存储解决方案是国内首个实现存储引擎全面自研的云存储解决方案，可将大模型的数据清洗和训练效率均提升一倍，需要的时间缩短一半。

　　腾讯云向量数据库Tencent Cloud VectorDB每日支撑超过3700亿次向量检索请求，可支持千亿级向量规模存储，百万级 QPS 及毫秒级查询延迟，适用于大模型的训练推理、RAG场景、AI应用以及搜索推荐服务，实现企业数据接入AI的效率比传统方案提升10倍。

　　腾讯云打造了天御AIGC全链路的内容安全解决方案，提供包含数据服务、安全专家、机器审核、版权保护、客户体验管理五大服务体系，护航企业从模型训练到事后运营全过程的内容安全建设。

　　王亚晨进一步介绍，在自身AI基础设施支撑下，腾讯自研的通用大模型腾讯混元大模型也在持续迭代。

　　借助基于星脉网络的大模型训练集群HCC、Angel机器学习平台等自研底层技术，腾讯搭建起万卡AI训练集群，可以用更少的资源训练更大的模型，训练速度是主流框架的2.6倍；推理成本相比业界主流框架下降70%，并且支持国产主流硬件的适配。

　　腾讯混元已扩展至万亿级参数规模，采用混合专家模型（MoE）结构，在通用基础能力和专业应用能力方面处于国内主流大模型领先地位。无论是企业客户还是个人开发者，都可以通过腾讯云上API直接调用腾讯混元，实现更便捷的智能化升级。腾讯还联合生态伙伴，将大模型技术与20多个行业结合，提供超50个行业大模型解决方案。

　　大模型时代的来临，将开创下一代云服务，腾讯云致力于打造“最适合大模型的云”，也将持续升级底层AI基础设施，助力企业把握AI时代。

关注同花顺财经（ths518），获取更多机会

0人