IT之家2月18日消息、英伟达は2月16日にブログを公開し、Blackwell Ultra AIアーキテクチャ(GB300NVL72)がエネルギー効率とコスト面で顕著な突破を達成したことを発表しました。DeepSeek-R1モデルのテストによると、前世代のHopper GPUと比較して、1メガワットあたりのスループットは50倍に向上し、100万トークンあたりのコストは35分の1に低減されました。また、英伟达は次世代のRubinプラットフォームも予告しており、こちらはBlackwellよりもさらに10倍のスループット向上が見込まれ、AIインフラの進化を一層推進します。IT之家注:1メガワットあたりのスループット(Tokens/Watt)は、AIチップのエネルギー効率を測る重要な指標であり、1ワットの電力で処理できるトークン(テキスト単位)の数を示します。数値が高いほどエネルギー効率が良く、運用コストが低いことを意味します。英伟达はブログの中で、性能向上の鍵はアーキテクチャのアップグレードにあると指摘しています。Blackwell UltraはNVLink技術を用いて72個のGPUを一つの計算ユニットに結合し、インターコネクト帯域は130TB/sに達し、Hopper時代の8チップ設計を大きく上回っています。さらに、新たなNVFP4精度フォーマットと高度な協調設計構造により、スループット性能における支配的な地位をさらに強固なものとしています。AI推論コストについては、新プラットフォームはHopperアーキテクチャと比較して、100万トークンあたりのコストを35分の1に削減しています。さらに、前世代のBlackwell(GB200)と比べても、GB300は長いコンテキストタスクにおいてトークンコストを1.5分の1に抑え、注意機構の処理速度は倍増しています。これにより、コードベースのメンテナンスなど高負荷なシナリオにも適応可能です。OpenRouterの「推論状況レポート」によると、ソフトウェアプログラミングに関連するAIクエリの量は過去1年で急増し、その割合は11%から約50%に上昇しています。こうしたアプリケーションは、AIエージェントが複数のステップを経るワークフロー内でリアルタイムの応答を維持し、複数のコードベースにまたがる推論の長いコンテキスト処理能力を必要とします。英伟达はこの課題に対応するため、TensorRT-LLMやDynamoなどのチームによる継続的な最適化を進め、ハイブリッドエキスパートモデル(MoE)の推論スループットをさらに向上させています。例えば、TensorRT-LLMライブラリの改良により、GB200は低遅延負荷においてわずか4か月で性能を5倍に向上させました。
DeepSeek R1 AI テスト:NVIDIA Blackwell の1メガワットあたりのスループットは Hopper の50倍
IT之家2月18日消息、英伟达は2月16日にブログを公開し、Blackwell Ultra AIアーキテクチャ(GB300NVL72)がエネルギー効率とコスト面で顕著な突破を達成したことを発表しました。DeepSeek-R1モデルのテストによると、前世代のHopper GPUと比較して、1メガワットあたりのスループットは50倍に向上し、100万トークンあたりのコストは35分の1に低減されました。
また、英伟达は次世代のRubinプラットフォームも予告しており、こちらはBlackwellよりもさらに10倍のスループット向上が見込まれ、AIインフラの進化を一層推進します。
IT之家注:1メガワットあたりのスループット(Tokens/Watt)は、AIチップのエネルギー効率を測る重要な指標であり、1ワットの電力で処理できるトークン(テキスト単位)の数を示します。数値が高いほどエネルギー効率が良く、運用コストが低いことを意味します。
英伟达はブログの中で、性能向上の鍵はアーキテクチャのアップグレードにあると指摘しています。Blackwell UltraはNVLink技術を用いて72個のGPUを一つの計算ユニットに結合し、インターコネクト帯域は130TB/sに達し、Hopper時代の8チップ設計を大きく上回っています。さらに、新たなNVFP4精度フォーマットと高度な協調設計構造により、スループット性能における支配的な地位をさらに強固なものとしています。
AI推論コストについては、新プラットフォームはHopperアーキテクチャと比較して、100万トークンあたりのコストを35分の1に削減しています。さらに、前世代のBlackwell(GB200)と比べても、GB300は長いコンテキストタスクにおいてトークンコストを1.5分の1に抑え、注意機構の処理速度は倍増しています。これにより、コードベースのメンテナンスなど高負荷なシナリオにも適応可能です。
OpenRouterの「推論状況レポート」によると、ソフトウェアプログラミングに関連するAIクエリの量は過去1年で急増し、その割合は11%から約50%に上昇しています。こうしたアプリケーションは、AIエージェントが複数のステップを経るワークフロー内でリアルタイムの応答を維持し、複数のコードベースにまたがる推論の長いコンテキスト処理能力を必要とします。
英伟达はこの課題に対応するため、TensorRT-LLMやDynamoなどのチームによる継続的な最適化を進め、ハイブリッドエキスパートモデル(MoE)の推論スループットをさらに向上させています。例えば、TensorRT-LLMライブラリの改良により、GB200は低遅延負荷においてわずか4か月で性能を5倍に向上させました。