DeepSeek R1 AI 测试：英伟达 Blackwell 每兆瓦吞吐量是 Hopper 的 50 倍

2026-02-21 23:07:20

IT之家2月18日消息，英伟达于2月16日发布博文，宣布其Blackwell Ultra AI架构(GB300NVL72)在能效与成本上实现显著突破，通过DeepSeek-R1模型测试，相比前代Hopper GPU，其每兆瓦吞吐量提升50倍，百万tokens成本降低至35分之一。

此外，英伟达还预告了下一代Rubin平台，预计其每兆瓦吞吐量将比Blackwell再提升10倍，进一步推动AI基础设施的演进。

IT之家注：每兆瓦吞吐量(Tokens/Watt)是衡量AI芯片能效比的核心指标，指每消耗一瓦特电力能处理多少Token(文本单位)。数值越高，代表能效越好，运营成本越低。

英伟达在博文中指出，性能飞跃的关键，是升级技术架构。Blackwell Ultra通过NVLink技术，将72个GPU连接成统一的计算单元，互联带宽高达130TB/s，远超Hopper时代的8芯片设计。此外，全新的NVFP4精度格式配合极致的协同设计结构，进一步巩固了其在吞吐性能上的统治地位。

AI 推理成本方面，相比Hopper架构，新平台将每百万Token的成本削减至35分之一；即便与上一代Blackwell(GB200)相比，GB300在长上下文任务中的Token成本也降低至1.5分之一，注意力机制处理速度翻倍，适配代码库维护等高负载场景。

OpenRouter的《推理状态报告》指出，与软件编程相关的AI查询量在过去一年中激增，占比从11%攀升至约50%。这类应用通常需要AI代理在多步工作流中保持实时响应，并具备跨代码库推理的长上下文处理能力。

英伟达为应对这一挑战，通过TensorRT-LLM、Dynamo等团队的持续优化，进一步提升了混合专家模型(MoE)的推理吞吐量。例如，TensorRT-LLM库的改进，让GB200在低延迟工作负载上的性能在短短四个月内提升了5倍。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

0/400

暂无评论

热门话题