NVIDIA突破DeepSeek推理性能记录:每秒3万Tokens
NVIDIA在2025 GTC大会上宣布了重大突破 - 搭载8颗Blackwell GPU的DGX系统在DeepSeek-R1模型(6710亿参数)推理任务中创下世界纪录:
·单用户推理速度超过每秒250个token
·峰值吞吐量超过每秒30,000个token
核心技术创新
Blackwell架构升级
·第五代Tensor Core支持FP4精度,AI算力提升5倍
·第五代NVLink和NVLink Switch带宽提高2倍
·扩展NVLink网络域规模能力
TensorRT生态系统优化
1.TensorRT Model Optimizer 0.25
·支持Blackwell FP4精度
·提供量化、蒸馏、剪枝等优化技术
2.TensorRT-LLM 0.17
·针对Blackwell架构深度优化
·支持动态批处理、KV缓存管理等特性
3.主流框架支持
·PyTorch、JAX、TensorFlow全面支持Blackwell
·vLLM与Ollama已完成适配
性能提升效果
与上一代Hopper架构相比:
·Llama 3系列和DeepSeek-R1推理吞吐量提升3倍以上
·FP4精度下显存占用降低5.2倍
·图像生成速度提升3倍
应用场景突破
1.大语言模型推理
·DeepSeek-R1、Llama 3.1(405B)等模型性能大幅提升
·保持高精度的同时显著降低延迟
2.AI图像生成
·Flux.1模型系列在FP4精度下性能显著提升
·图像质量保持不变的同时提升生成速度
这些突破性进展标志着NVIDIA在AI推理性能方面达到了新的高度,为未来AI应用的大规模部署奠定了基础。
195人
- 每日推荐
- 股票频道
- 要闻频道
- 港股频道


- 上海传重磅!重组潜力股名单出炉!
- 与小米合作推出新一代AI眼镜?歌尔股份回应:不便透露客户信息
- 离“不卖就禁”只剩两个多月!特朗普团队:将兑现承诺,拯救TikTok
- 涨停复盘:创业板指探底回升收涨1.11% AI应用方向集体走强
- 春节8天 2025年法定节假日安排来了
- 沪深 300 相对成长指数报3474.62点,前十大权重包含贵州茅台等
- 沪深 300 相对价值指数报4285.61点,前十大权重包含中国平安等
- 机构论市:目前指数上行的趋势并没有改变
- 【机会挖掘】低空经济政策频发 相关产业有望受益