IT House a rapporté le 18 février que Nvidia avait publié un billet de blog le 16 février, annonçant que son architecture Blackwell Ultra AI (GB300NVL72) avait réalisé des avancées significatives en matière d’efficacité énergétique et de coûts, et que, grâce au test du modèle DeepSeek-R1, son débit par mégawatt a été multiplié par 50 par rapport à la génération précédente de GPU Hopper, et que le coût par million de jetons est réduit à un tiers de 35.
De plus, Nvidia a également évoqué la nouvelle génération de la plateforme Rubin, qui devrait augmenter son débit par mégawatt de 10 fois par rapport à Blackwell, favorisant ainsi l’évolution de l’infrastructure IA.
IT Home Note : Le débit par mégawatt (jetons/watt) est l’indicateur principal pour mesurer le ratio d’efficacité énergétique des puces IA, qui correspond au nombre de jetons (unités textuelles) pouvant être traités pour chaque watt d’électricité consommé. Des valeurs plus élevées représentent une meilleure efficacité énergétique et des coûts d’exploitation plus faibles.
Nvidia a souligné dans un article de blog que la clé d’un bond en performance est de moderniser l’architecture technique. Blackwell Ultra utilise la technologie NVLink pour connecter 72 GPU dans une unité de calcul unifiée, avec une bande passante d’interconnexion allant jusqu’à 130 To/s, bien supérieure à la conception à 8 puces de l’ère Hopper. De plus, le nouveau format de précision NVFP4 avec la structure ultime de co-conception renforce encore sa domination en matière de performance en débit.
En termes de coûts d’inférence IA, comparé à l’architecture Hopper, la nouvelle plateforme réduit le coût par million de jetons à un tiers du coût ; Même comparé à la génération précédente de Blackwell (GB200), le coût du jeton GB300 dans les tâches à long contexte a été réduit à 1,5, et la vitesse de traitement du mécanisme d’attention a doublé, ce qui le rend adapté à des scénarios à forte charge tels que la maintenance de la base de code.
Le rapport sur l’état d’inférence d’OpenRouter note que le nombre de requêtes liées à la programmation logicielle en IA a explosé au cours de l’année écoulée, passant de 11 % à environ 50 %. Ces applications nécessitent souvent que les agents IA maintiennent des réponses en temps réel dans des flux de travail en plusieurs étapes et soient capables de gérer de longs contextes pour une inférence croisée de code.
Pour relever ce défi, NVIDIA a encore amélioré le débit d’inférence des modèles experts hybrides (MoE) grâce à une optimisation continue par des équipes telles que TensorRT-LLM et Dynamo. Par exemple, des améliorations apportées à la bibliothèque TensorRT-LLM ont multiplié par 5 les performances du GB200 en seulement quatre mois sur des charges de travail à faible latence.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Test DeepSeek R1 AI : la capacité de traitement par mégawatt de Nvidia Blackwell est 50 fois supérieure à celle de Hopper
IT House a rapporté le 18 février que Nvidia avait publié un billet de blog le 16 février, annonçant que son architecture Blackwell Ultra AI (GB300NVL72) avait réalisé des avancées significatives en matière d’efficacité énergétique et de coûts, et que, grâce au test du modèle DeepSeek-R1, son débit par mégawatt a été multiplié par 50 par rapport à la génération précédente de GPU Hopper, et que le coût par million de jetons est réduit à un tiers de 35.
De plus, Nvidia a également évoqué la nouvelle génération de la plateforme Rubin, qui devrait augmenter son débit par mégawatt de 10 fois par rapport à Blackwell, favorisant ainsi l’évolution de l’infrastructure IA.
IT Home Note : Le débit par mégawatt (jetons/watt) est l’indicateur principal pour mesurer le ratio d’efficacité énergétique des puces IA, qui correspond au nombre de jetons (unités textuelles) pouvant être traités pour chaque watt d’électricité consommé. Des valeurs plus élevées représentent une meilleure efficacité énergétique et des coûts d’exploitation plus faibles.
Nvidia a souligné dans un article de blog que la clé d’un bond en performance est de moderniser l’architecture technique. Blackwell Ultra utilise la technologie NVLink pour connecter 72 GPU dans une unité de calcul unifiée, avec une bande passante d’interconnexion allant jusqu’à 130 To/s, bien supérieure à la conception à 8 puces de l’ère Hopper. De plus, le nouveau format de précision NVFP4 avec la structure ultime de co-conception renforce encore sa domination en matière de performance en débit.
En termes de coûts d’inférence IA, comparé à l’architecture Hopper, la nouvelle plateforme réduit le coût par million de jetons à un tiers du coût ; Même comparé à la génération précédente de Blackwell (GB200), le coût du jeton GB300 dans les tâches à long contexte a été réduit à 1,5, et la vitesse de traitement du mécanisme d’attention a doublé, ce qui le rend adapté à des scénarios à forte charge tels que la maintenance de la base de code.
Le rapport sur l’état d’inférence d’OpenRouter note que le nombre de requêtes liées à la programmation logicielle en IA a explosé au cours de l’année écoulée, passant de 11 % à environ 50 %. Ces applications nécessitent souvent que les agents IA maintiennent des réponses en temps réel dans des flux de travail en plusieurs étapes et soient capables de gérer de longs contextes pour une inférence croisée de code.
Pour relever ce défi, NVIDIA a encore amélioré le débit d’inférence des modèles experts hybrides (MoE) grâce à une optimisation continue par des équipes telles que TensorRT-LLM et Dynamo. Par exemple, des améliorations apportées à la bibliothèque TensorRT-LLM ont multiplié par 5 les performances du GB200 en seulement quatre mois sur des charges de travail à faible latence.