NVIDIA突破DeepSeek推理性能记录:每秒3万Tokens

2025-03-20 22:25:12 来源: 金融界

  NVIDIA在2025 GTC大会上宣布了重大突破 - 搭载8颗Blackwell GPU的DGX系统在DeepSeek-R1模型(6710亿参数)推理任务中创下世界纪录:

  ·单用户推理速度超过每秒250个token

  ·峰值吞吐量超过每秒30,000个token

  核心技术创新

  Blackwell架构升级

  ·第五代Tensor Core支持FP4精度,AI算力提升5倍

  ·第五代NVLink和NVLink Switch带宽提高2倍

  ·扩展NVLink网络域规模能力

  TensorRT生态系统优化

  1.TensorRT Model Optimizer 0.25

  ·支持Blackwell FP4精度

  ·提供量化、蒸馏、剪枝等优化技术

  2.TensorRT-LLM 0.17

  ·针对Blackwell架构深度优化

  ·支持动态批处理、KV缓存管理等特性

  3.主流框架支持

  ·PyTorch、JAX、TensorFlow全面支持Blackwell

  ·vLLM与Ollama已完成适配

  性能提升效果

  与上一代Hopper架构相比:

  ·Llama 3系列和DeepSeek-R1推理吞吐量提升3倍以上

  ·FP4精度下显存占用降低5.2倍

  ·图像生成速度提升3倍

  应用场景突破

  1.大语言模型推理

  ·DeepSeek-R1、Llama 3.1(405B)等模型性能大幅提升

  ·保持高精度的同时显著降低延迟

  2.AI图像生成

  ·Flux.1模型系列在FP4精度下性能显著提升

  ·图像质量保持不变的同时提升生成速度

  这些突破性进展标志着NVIDIA在AI推理性能方面达到了新的高度,为未来AI应用的大规模部署奠定了基础。

关注同花顺财经(ths518),获取更多机会 返回首页举报 >

205

+1
advert
advert
advert
advert
  • 三德科技
  • 沃尔核材
  • 电光科技
  • 钧崴电子
  • 金安国纪
  • 长盛轴承
  • 广和通
  • 科泰电源
  • advert
    advert
    advert
    advert