A IT House noticiou a 18 de fevereiro que a Nvidia publicou um artigo no blogue a 16 de fevereiro, anunciando que a sua arquitetura Blackwell Ultra AI (GB300NVL72) alcançou avanços significativos em eficiência energética e custo, e que, através do teste do modelo DeepSeek-R1, o seu débito por megawatt aumentou 50 vezes em comparação com a GPU Hopper da geração anterior, e o custo por milhão de tokens foi reduzido para um terço de 35.
Além disso, a Nvidia também antecipou a plataforma Rubin de próxima geração, que deverá aumentar o seu débito por megawatt em mais 10 vezes em comparação com a Blackwell, impulsionando ainda mais a evolução da infraestrutura de IA.
IT Página Inicial Nota: O débito por megawatt (Tokens/Watt) é o indicador central para medir a razão de eficiência energética dos chips de IA, que se refere a quantos tokens (unidades de texto) podem ser processados por cada watt de eletricidade consumida. Valores mais elevados representam melhor eficiência energética e custos operacionais mais baixos.
A Nvidia salientou num artigo no blogue que a chave para um salto de desempenho é atualizar a arquitetura técnica. A Blackwell Ultra utiliza a tecnologia NVLink para ligar 72 GPUs numa unidade de computação unificada, com uma largura de banda de interligação de até 130TB/s, muito superior ao design de 8 chips da era Hopper. Além disso, o novo formato de precisão NVFP4 com a estrutura de co-design definitiva solidifica ainda mais o seu domínio no desempenho de throughput.
Em termos de custos de inferência de IA, comparado com a arquitetura Hopper, a nova plataforma reduz o custo por milhão de tokens para um terço do custo; Mesmo comparado com a geração anterior do Blackwell (GB200), o custo do token do GB300 em tarefas de longo contexto foi reduzido para 1,5, e a velocidade de processamento do mecanismo de atenção duplicou, tornando-o adequado para cenários de alta carga, como a manutenção da base de código.
O Relatório State of Inference do OpenRouter observa que o número de consultas de IA relacionadas com programação de software aumentou drasticamente no último ano, subindo de 11% para cerca de 50%. Estas aplicações frequentemente exigem que agentes de IA mantenham respostas em tempo real em fluxos de trabalho de múltiplos passos e tenham a capacidade de lidar com contextos longos para inferência cruzada entre bases de código.
Para enfrentar este desafio, a NVIDIA melhorou ainda mais o débito de inferência dos modelos especialistas híbridos (MoE) através da otimização contínua por equipas como a TensorRT-LLM e a Dynamo. Por exemplo, melhorias na biblioteca TensorRT-LLM melhoraram o desempenho do GB200 em 5 vezes em apenas quatro meses com cargas de trabalho de baixa latência.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Teste DeepSeek R1 AI: a taxa de processamento por megawatt da Nvidia Blackwell é 50 vezes maior que a do Hopper
A IT House noticiou a 18 de fevereiro que a Nvidia publicou um artigo no blogue a 16 de fevereiro, anunciando que a sua arquitetura Blackwell Ultra AI (GB300NVL72) alcançou avanços significativos em eficiência energética e custo, e que, através do teste do modelo DeepSeek-R1, o seu débito por megawatt aumentou 50 vezes em comparação com a GPU Hopper da geração anterior, e o custo por milhão de tokens foi reduzido para um terço de 35.
Além disso, a Nvidia também antecipou a plataforma Rubin de próxima geração, que deverá aumentar o seu débito por megawatt em mais 10 vezes em comparação com a Blackwell, impulsionando ainda mais a evolução da infraestrutura de IA.
IT Página Inicial Nota: O débito por megawatt (Tokens/Watt) é o indicador central para medir a razão de eficiência energética dos chips de IA, que se refere a quantos tokens (unidades de texto) podem ser processados por cada watt de eletricidade consumida. Valores mais elevados representam melhor eficiência energética e custos operacionais mais baixos.
A Nvidia salientou num artigo no blogue que a chave para um salto de desempenho é atualizar a arquitetura técnica. A Blackwell Ultra utiliza a tecnologia NVLink para ligar 72 GPUs numa unidade de computação unificada, com uma largura de banda de interligação de até 130TB/s, muito superior ao design de 8 chips da era Hopper. Além disso, o novo formato de precisão NVFP4 com a estrutura de co-design definitiva solidifica ainda mais o seu domínio no desempenho de throughput.
Em termos de custos de inferência de IA, comparado com a arquitetura Hopper, a nova plataforma reduz o custo por milhão de tokens para um terço do custo; Mesmo comparado com a geração anterior do Blackwell (GB200), o custo do token do GB300 em tarefas de longo contexto foi reduzido para 1,5, e a velocidade de processamento do mecanismo de atenção duplicou, tornando-o adequado para cenários de alta carga, como a manutenção da base de código.
O Relatório State of Inference do OpenRouter observa que o número de consultas de IA relacionadas com programação de software aumentou drasticamente no último ano, subindo de 11% para cerca de 50%. Estas aplicações frequentemente exigem que agentes de IA mantenham respostas em tempo real em fluxos de trabalho de múltiplos passos e tenham a capacidade de lidar com contextos longos para inferência cruzada entre bases de código.
Para enfrentar este desafio, a NVIDIA melhorou ainda mais o débito de inferência dos modelos especialistas híbridos (MoE) através da otimização contínua por equipas como a TensorRT-LLM e a Dynamo. Por exemplo, melhorias na biblioteca TensorRT-LLM melhoraram o desempenho do GB200 em 5 vezes em apenas quatro meses com cargas de trabalho de baixa latência.