Prueba DeepSeek R1 AI: la capacidad de procesamiento por megavatio de Nvidia Blackwell es 50 veces mayor que la de Hopper

2026-02-21 23:07:20

IT House informó el 18 de febrero que Nvidia publicó una entrada en su blog el 16 de febrero, anunciando que su arquitectura Blackwell Ultra AI (GB300NVL72) ha logrado avances significativos en eficiencia energética y coste, y que, mediante la prueba del modelo DeepSeek-R1, su rendimiento por megavatio se incrementa 50 veces respecto a la generación anterior de GPU Hopper, y el coste por millón de tokens se reduce a un tercio de 35.

Además, Nvidia también adelantó la plataforma Rubin de próxima generación, que se espera aumente su rendimiento por megavatio en otras 10 veces respecto a Blackwell, impulsando aún más la evolución de la infraestructura de IA.

IT Página principal Nota: El rendimiento por megavatio (Tokens/Watt) es el indicador principal para medir la relación de eficiencia energética de los chips de IA, que se refiere a cuántos tokens (unidades de texto) se pueden procesar por cada vatio de electricidad consumida. Valores más altos representan mejor eficiencia energética y menores costes operativos.

Nvidia señaló en una entrada de blog que la clave para un salto de rendimiento es actualizar la arquitectura técnica. Blackwell Ultra utiliza la tecnología NVLink para conectar 72 GPUs en una unidad de computación unificada, con un ancho de banda de interconexión de hasta 130TB/s, superando con creces el diseño de 8 chips de la era Hopper. Además, el nuevo formato de precisión NVFP4 con la estructura definitiva de co-diseño consolida aún más su dominio en rendimiento de rendimiento de producción.

En cuanto a los costes de inferencia de IA, en comparación con la arquitectura Hopper, la nueva plataforma reduce el coste por millón de tokens a un tercio del coste; Incluso en comparación con la generación anterior de Blackwell (GB200), el coste del token de GB300 en tareas de largo contexto se ha reducido a 1,5, y la velocidad de procesamiento del mecanismo de atención se ha duplicado, haciéndolo adecuado para escenarios de alta carga como el mantenimiento de la base de código.

El Informe sobre el Estado de la Inferencia de OpenRouter señala que el número de consultas de IA relacionadas con la programación de software ha aumentado en el último año, pasando del 11% a aproximadamente el 50%. Estas aplicaciones a menudo requieren que los agentes de IA mantengan respuestas en tiempo real en flujos de trabajo de varios pasos y tengan la capacidad de gestionar contextos largos para inferir entre bases de código.

Para abordar este desafío, NVIDIA ha mejorado aún más el rendimiento de inferencia de modelos expertos híbridos (MoE) mediante la optimización continua por equipos como TensorRT-LLM y Dynamo. Por ejemplo, las mejoras en la biblioteca TensorRT-LLM han multiplicado por 5 el rendimiento del GB200 en solo cuatro meses con cargas de trabajo de baja latencia.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.