英伟达宣布创造满血 DeepSeek 推理世界记录
IT之家 3 月 19 日消息,英伟达在今日举行的 NVIDIA GTC 2025 上宣布其 NVIDIA Blackwell DGX 系统创下 DeepSeek-R1 大模型推理性能的世界纪录。
据介绍,在搭载了八块 Blackwell GPU 的单个 DGX 系统上运行 6710 亿参数的满血 DeepSeek-R1 模型可实现每用户每秒超 250 token 的响应速度,系统最高吞吐量突破每秒 3 万 token。
英伟达表示,随着 NVIDIA 平台继续在最新的 Blackwell Ultra GPU 和 Blackwell GPU 上突破推理极限,其性能将会继续不断提高。
▲ 运行 TensorRT-LLM 软件的 NVL8 配置的 NVIDIA B200 GPU
单节点配置:DGX B200(8 块 GPU)与 DGX H200(8 块 GPU)
测试参数:最新测试采用 TensorRT-LLM 内部版本,输入 1024 token / 输出 2048 token;此前测试为输入 / 输出各 1024 token
计算精度:B200 采用 FP4,H100 / H200 采用 FP8 精度
英伟达表示,通过硬件和软件的结合,他们自 2025 年 1 月以来成功将 DeepSeek-R1 671B 模型的吞吐量提高了约 36 倍。
节点配置:DGX B200(8 块 GPU)、DGX H200(8 块 GPU)、两个 DGX H100(8 块 GPU)系统
测试参数:依然采用 TensorRT-LLM 内部版本,输入 1024 token / 输出 2048 token;此前测试为输入 / 输出各 1024 token;并发性 MAX
计算精度:B200 采用 FP4,H100 / H200 采用 FP8 精度
与 Hopper 架构相比,Blackwell 架构与 TensorRT 软件相结合可实现显著的推理性能提升。
英伟达表示,包括 DeepSeek-R1、Llama 3.1 405B 和 Llama 3.3 70B,运行 TensorRT 软件并使用 FP4 精度的 DGX B200 平台与 DGX H200 平台相比已经提供了 3 倍以上的推理吞吐量提升。
精度 | MMLU | GSM8K | AIME 2024 | GPQA Diamond | MATH-500 |
DeepSeek R1-FP8 | 90.8% | 96.3% | 80.0% | 69.7% | 95.4% |
DeepSeek R1-FP4 | 90.7% | 96.1% | 80.0% | 69.2% | 94.2% |
英伟达表示,在对模型进行量化以利用低精度计算优势时,确保精度损失最小化是生产部署的关键。IT之家注意到,在 DeepSeek-R1 模型上,相较于 FP8 基准精度,TensorRT Model Optimizer 的 FP4 训练后量化(PTQ)技术在不同数据集上仅产生微乎其微的精度损失。
225人
- 每日推荐
- 股票频道
- 要闻频道
- 港股频道


- 上海传重磅!重组潜力股名单出炉!
- 与小米合作推出新一代AI眼镜?歌尔股份回应:不便透露客户信息
- 离“不卖就禁”只剩两个多月!特朗普团队:将兑现承诺,拯救TikTok
- 涨停复盘:创业板指探底回升收涨1.11% AI应用方向集体走强
- 春节8天 2025年法定节假日安排来了
- 沪深 300 相对成长指数报3474.62点,前十大权重包含贵州茅台等
- 沪深 300 相对价值指数报4285.61点,前十大权重包含中国平安等
- 机构论市:目前指数上行的趋势并没有改变
- 【机会挖掘】低空经济政策频发 相关产业有望受益