同花顺 Logo
AIME助手
问财助手
百度百舸发布 LoongForge DP负载均衡方案 多模态模型训练效率提升近10%
2026-05-22 14:38:04
来源:IT之家
分享
文章提及标的
百度--
周期--
化工--

针对大语言模型与多模态模型训练中数据并行(Data Parallel,DP)负载不均的行业难题,百度(BIDU)百舸近日正式发布LoongForge DP负载均衡优化方案。该方案通过精准计算开销建模与自适应数据重分配技术,在超大规模分布式训练场景下实现近10%的性能提升,有效破解制约模型训练效率的核心瓶颈。

行业痛点:DP负载不均成为训练效率"拦路虎"

当前,大语言模型与多模态大模型训练普遍采用数据并行机制,将训练数据分发至各计算节点并行计算后,通过AllReduce完成梯度同步。然而,分布式同步机制的特性决定了任意单个节点的计算延迟都会被全局放大,形成全员等待的冗余开销。

传统固定长度packing策略仅从Token数量维度实现基础负载均衡,却忽视了Transformer注意力机制二次方计算复杂度的特性。百度(BIDU)百舸技术团队发现,即便两个节点处理的Token总数相同,只要样本长度分布存在差异,实际计算开销就会出现巨大差距。”

这一问题在多模态模型训练中更为严峻。图像分辨率、图片张数、视频帧数等差异,导致视觉编码器与文本解码器双重模块均存在负载不均,进一步加剧分布式训练瓶颈。

核心创新:两大阶段破解负载均衡难题

LoongForge DP负载均衡方案采用两阶段优化策略,全程嵌入原生训练流程,无需离线预处理:

热身建模阶段:通过在线实时性能探测机制,动态采集各DP节点的真实计算执行耗时与样本特征数据,自适应构建与模型计算特性相匹配的开销估计模型。该模型能够同时刻画Attention的二次复杂度开销、线性层开销及固定开销,精准拟合不同样本组合的真实计算成本。

在线自适应重分配阶段:基于构建的计算开销模型,实时评估各DP节点待训练样本的计算压力,动态完成跨节点样本重分配调度,最小化所有节点单迭代最大总计算开销,抹平节点间计算耗时差异。

四大特性:易用性与性能兼顾

该方案具备四大核心特性:

多模态双重负载均衡:同时适配LLM文本解码器与ViT视觉编码器,实现全维度负载均衡优化

迭代级全局均衡:支持跨微批次负载持续追踪,达成完整迭代周期(883436)内的全局负载均衡

智能触发机制:自动跳过无效重排操作,避免无效通信与资源浪费

零额外时延:采用异步流水线设计,数据重排开销完全隐藏,无额外训练时延增量

方案支持开箱即用,全面兼容InternVL、Qwen2-VL/2.5-VL/3-VL等主流多模态模型,覆盖图像、视频全场景训练,无需修改模型训练代码,仅通过简单命令行参数即可一键启用。

实验验证:超大规模场景收益显著

在固定未开启All-Reduce通信重叠优化的实验条件下,针对不同DP并行规模开展对照实验:

未开启DP负载均衡机制前:随着并行规模从DP32扩展至DP512,模型训练整体吞吐性能(TGS)持续下降,在DP256向DP512扩展阶段性能退化尤为显著。

开启LoongForge DP负载均衡机制后:在所有DP并行规模下训练吞吐水平均明显提升,且并行规模越大优化收益越显著。在DP256规模下性能提升约3.3%,在DP512超大规模场景下性能提升接近10%。

应用价值:推动大规模模型训练降本增效

实验结果表明,LoongForge的DP负载均衡方案通过对计算负载进行精细化建模并实施自适应动态数据重分配,从根本上缓解了负载不均问题,显著减少梯度同步阶段的无效等待时间,整体提升分布式训练吞吐率及GPU资源利用效率,尤其适用于超大规模集群训练场景。

该方案的发布,为业界提供了一套行之有效的大规模模型训练优化工(850102)具,有望显著降低训练成本、提升算力利用效率,推动大模型技术发展与产业化应用。

关于LoongForge LoongForge是百度(BIDU)百舸开源的全模态训练框架,为原生多模态时代提供一套统一、高效、易用的训练加速解决方案。已在GPU与昆仑芯XPU两大平台、数千卡规模集群上完成长期生产验证,覆盖LLM到VLM、VLA等多种业务场景。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号-4
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈