英伟达宣布创造满血 DeepSeek 推理世界记录

2025-03-19 15:24:21 来源: IT之家

  IT之家 3 月 19 日消息,英伟达在今日举行的 NVIDIA GTC 2025 上宣布其 NVIDIA Blackwell DGX 系统创下 DeepSeek-R1 大模型推理性能的世界纪录。

  据介绍,在搭载了八块 Blackwell GPU 的单个 DGX 系统上运行 6710 亿参数的满血 DeepSeek-R1 模型可实现每用户每秒超 250 token 的响应速度,系统最高吞吐量突破每秒 3 万 token。

  英伟达表示,随着 NVIDIA 平台继续在最新的 Blackwell Ultra GPU 和 Blackwell GPU 上突破推理极限,其性能将会继续不断提高。

  ▲ 运行 TensorRT-LLM 软件的 NVL8 配置的 NVIDIA B200 GPU

  单节点配置:DGX B200(8 块 GPU)与 DGX H200(8 块 GPU)

  测试参数:最新测试采用 TensorRT-LLM 内部版本,输入 1024 token / 输出 2048 token;此前测试为输入 / 输出各 1024 token

  计算精度:B200 采用 FP4,H100 / H200 采用 FP8 精度

  英伟达表示,通过硬件和软件的结合,他们自 2025 年 1 月以来成功将 DeepSeek-R1 671B 模型的吞吐量提高了约 36 倍。

  节点配置:DGX B200(8 块 GPU)、DGX H200(8 块 GPU)、两个 DGX H100(8 块 GPU)系统

  测试参数:依然采用 TensorRT-LLM 内部版本,输入 1024 token / 输出 2048 token;此前测试为输入 / 输出各 1024 token;并发性 MAX

  计算精度:B200 采用 FP4,H100 / H200 采用 FP8 精度

  与 Hopper 架构相比,Blackwell 架构与 TensorRT 软件相结合可实现显著的推理性能提升。

  英伟达表示,包括 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B,运行 TensorRT 软件并使用 FP4 精度的 DGX B200 平台与 DGX H200 平台相比已经提供了 3 倍以上的推理吞吐量提升。

精度MMLUGSM8KAIME 2024GPQA DiamondMATH-500
DeepSeek R1-FP890.8%96.3%80.0%69.7%95.4%
DeepSeek R1-FP490.7%96.1%80.0%69.2%94.2%

  英伟达表示,在对模型进行量化以利用低精度计算优势时,确保精度损失最小化是生产部署的关键。IT之家注意到,在 DeepSeek-R1 模型上,相较于 FP8 基准精度,TensorRT Model Optimizer 的 FP4 训练后量化(PTQ)技术在不同数据集上仅产生微乎其微的精度损失。

关注同花顺财经(ths518),获取更多机会 返回首页举报 >

225

+1
advert
advert
advert
advert

05:47

金融监管总局近日发布《商业银行代理销售业务管理办法》(以下简称《办法》),有关司局负责人就《办法》相关问题回答了记者的提问。有关司局负责人指出,近年来,商业银行代销业务快速发展,代销产品数量和类型日益丰富,客户覆盖面日益广泛。在相关监管制度不断压实金融产品发行人、管理人责任的基础上,有必要进一步明确商业银行作为代销机构的义务。为此,总局制定《办法》,旨在推动商业银行代销业务规范有序发展。《办法》共八章54条,主要包括以下内容:第一章总则,明确商业银行开展代销业务应当具备的条件、基本原则。第二章代销业务内部管理制度,明确商业银行开展代销业务需建立健全管理制度、业务系统、内部管理、消费者保护等机制。第三章合作机构管理,强化商业银行对合作机构的管理责任,明确合作机构准入审查要求和退出机制,明晰商业银行和合作机构的法律责任。第四章代销产品准入管理,强化商业银行对代销产品的准入管理责任,明确尽职调查要求。第五章销售管理,对商业银行宣传推介和代理销售行为作出规范。第六章代销产品存续期管理,明确存续期内商业银行应尽的义务。第七章监督管理,明确对商业银行开展代销业务的报告要求和监管措施。第八章附则,规定《办法》的施行时间等。(金融监管总局网站)
  • 三德科技
  • 沃尔核材
  • 电光科技
  • 钧崴电子
  • 金安国纪
  • 长盛轴承
  • 广和通
  • 科泰电源
  • advert
    advert
    advert
    advert