Teste DeepSeek R1 AI: a taxa de processamento por megawatt da Nvidia Blackwell é 50 vezes maior que a do Hopper

K-LinePoet · 2026-02-21T23:07:20+00:00

IT之家2月18日消息，英伟达于2月16日发布博文，宣布其Blackwell Ultra AI架构(GB300NVL72)在能效与成本上实现显著突破，通过DeepSeek-R1模型测试，相比前代Hopper GPU，其每兆瓦吞吐量提升50倍，百万tokens成本降低至35分之一。此外，英伟达还预告了下一代Rubin平台，预计其每兆瓦吞吐量将比Blackwell再提升10倍，进一步推动AI基础设施的演进。

K-LinePoet

2026-02-21 23:07:20

A IT House noticiou a 18 de fevereiro que a Nvidia publicou um artigo no blogue a 16 de fevereiro, anunciando que a sua arquitetura Blackwell Ultra AI (GB300NVL72) alcançou avanços significativos em eficiência energética e custo, e que, através do teste do modelo DeepSeek-R1, o seu débito por megawatt aumentou 50 vezes em comparação com a GPU Hopper da geração anterior, e o custo por milhão de tokens foi reduzido para um terço de 35.

Além disso, a Nvidia também antecipou a plataforma Rubin de próxima geração, que deverá aumentar o seu débito por megawatt em mais 10 vezes em comparação com a Blackwell, impulsionando ainda mais a evolução da infraestrutura de IA.

IT Página Inicial Nota: O débito por megawatt (Tokens/Watt) é o indicador central para medir a razão de eficiência energética dos chips de IA, que se refere a quantos tokens (unidades de texto) podem ser processados por cada watt de eletricidade consumida. Valores mais elevados representam melhor eficiência energética e custos operacionais mais baixos.

A Nvidia salientou num artigo no blogue que a chave para um salto de desempenho é atualizar a arquitetura técnica. A Blackwell Ultra utiliza a tecnologia NVLink para ligar 72 GPUs numa unidade de computação unificada, com uma largura de banda de interligação de até 130TB/s, muito superior ao design de 8 chips da era Hopper. Além disso, o novo formato de precisão NVFP4 com a estrutura de co-design definitiva solidifica ainda mais o seu domínio no desempenho de throughput.

Em termos de custos de inferência de IA, comparado com a arquitetura Hopper, a nova plataforma reduz o custo por milhão de tokens para um terço do custo; Mesmo comparado com a geração anterior do Blackwell (GB200), o custo do token do GB300 em tarefas de longo contexto foi reduzido para 1,5, e a velocidade de processamento do mecanismo de atenção duplicou, tornando-o adequado para cenários de alta carga, como a manutenção da base de código.

O Relatório State of Inference do OpenRouter observa que o número de consultas de IA relacionadas com programação de software aumentou drasticamente no último ano, subindo de 11% para cerca de 50%. Estas aplicações frequentemente exigem que agentes de IA mantenham respostas em tempo real em fluxos de trabalho de múltiplos passos e tenham a capacidade de lidar com contextos longos para inferência cruzada entre bases de código.

Para enfrentar este desafio, a NVIDIA melhorou ainda mais o débito de inferência dos modelos especialistas híbridos (MoE) através da otimização contínua por equipas como a TensorRT-LLM e a Dynamo. Por exemplo, melhorias na biblioteca TensorRT-LLM melhoraram o desempenho do GB200 em 5 vezes em apenas quatro meses com cargas de trabalho de baixa latência.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.