Teste DeepSeek R1 AI: a taxa de processamento por megawatt da Nvidia Blackwell é 50 vezes maior que a do Hopper

A IT House noticiou a 18 de fevereiro que a Nvidia publicou um artigo no blogue a 16 de fevereiro, anunciando que a sua arquitetura Blackwell Ultra AI (GB300NVL72) alcançou avanços significativos em eficiência energética e custo, e que, através do teste do modelo DeepSeek-R1, o seu débito por megawatt aumentou 50 vezes em comparação com a GPU Hopper da geração anterior, e o custo por milhão de tokens foi reduzido para um terço de 35.

Além disso, a Nvidia também antecipou a plataforma Rubin de próxima geração, que deverá aumentar o seu débito por megawatt em mais 10 vezes em comparação com a Blackwell, impulsionando ainda mais a evolução da infraestrutura de IA.

IT Página Inicial Nota: O débito por megawatt (Tokens/Watt) é o indicador central para medir a razão de eficiência energética dos chips de IA, que se refere a quantos tokens (unidades de texto) podem ser processados por cada watt de eletricidade consumida. Valores mais elevados representam melhor eficiência energética e custos operacionais mais baixos.

A Nvidia salientou num artigo no blogue que a chave para um salto de desempenho é atualizar a arquitetura técnica. A Blackwell Ultra utiliza a tecnologia NVLink para ligar 72 GPUs numa unidade de computação unificada, com uma largura de banda de interligação de até 130TB/s, muito superior ao design de 8 chips da era Hopper. Além disso, o novo formato de precisão NVFP4 com a estrutura de co-design definitiva solidifica ainda mais o seu domínio no desempenho de throughput.

Em termos de custos de inferência de IA, comparado com a arquitetura Hopper, a nova plataforma reduz o custo por milhão de tokens para um terço do custo; Mesmo comparado com a geração anterior do Blackwell (GB200), o custo do token do GB300 em tarefas de longo contexto foi reduzido para 1,5, e a velocidade de processamento do mecanismo de atenção duplicou, tornando-o adequado para cenários de alta carga, como a manutenção da base de código.

O Relatório State of Inference do OpenRouter observa que o número de consultas de IA relacionadas com programação de software aumentou drasticamente no último ano, subindo de 11% para cerca de 50%. Estas aplicações frequentemente exigem que agentes de IA mantenham respostas em tempo real em fluxos de trabalho de múltiplos passos e tenham a capacidade de lidar com contextos longos para inferência cruzada entre bases de código.

Para enfrentar este desafio, a NVIDIA melhorou ainda mais o débito de inferência dos modelos especialistas híbridos (MoE) através da otimização contínua por equipas como a TensorRT-LLM e a Dynamo. Por exemplo, melhorias na biblioteca TensorRT-LLM melhoraram o desempenho do GB200 em 5 vezes em apenas quatro meses com cargas de trabalho de baixa latência.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)