DeepSeek R1 AI тест: пропускная способность Nvidia Blackwell на мегаватт в 50 раз превышает Hopper

K-LinePoet · 2026-02-21T23:07:20+00:00

IT之家2月18日消息，英伟达于2月16日发布博文，宣布其Blackwell Ultra AI架构(GB300NVL72)在能效与成本上实现显著突破，通过DeepSeek-R1模型测试，相比前代Hopper GPU，其每兆瓦吞吐量提升50倍，百万tokens成本降低至35分之一。此外，英伟达还预告了下一代Rubin平台，预计其每兆瓦吞吐量将比Blackwell再提升10倍，进一步推动AI基础设施的演进。

K-LinePoet

2026-02-21 23:07:20

IT House сообщил 18 февраля, что Nvidia опубликовала блог-пост 16 февраля, в котором сообщил, что её архитектура Blackwell Ultra AI (GB300NVL72) достигла значительных прорывов в энергоэффективности и стоимости, а благодаря тесту модели DeepSeek-R1 её пропускная способность на мегаватт увеличена в 50 раз по сравнению с предыдущим поколением GPU Hopper, а стоимость за миллион токенов снижена до трети от 35.

Кроме того, Nvidia также анонсировала платформу следующего поколения Rubin, которая, как ожидается, увеличит свою пропускную способность на мегаватт ещё в 10 раз по сравнению с Blackwell, что ещё больше стимулирует развитие инфраструктуры ИИ.

IT Home Примечание: Пропускная способность на мегаватт (токены/ватт) — это основной индикатор для измерения коэффициента энергоэффективности чипов ИИ, который указывает на количество токенов (текстовых единиц) обработки на каждый потребляемый ватт электроэнергии. Более высокие значения свидетельствуют о лучшей энергоэффективности и снижении эксплуатационных затрат.

Nvidia отметила в блоге, что ключ к скачку производительности — это обновление технической архитектуры. Blackwell Ultra использует технологию NVLink для соединения 72 GPU в единый вычислительный блок с пропускной способностью до 130 ТБ/с, что значительно превышает 8-чиповую конструкцию эпохи Hopper. Кроме того, новый прецизионный формат NVFP4 с конечной структурой совместного проектирования ещё больше укрепляет его лидерство в производительности.

Что касается затрат на вывод ИИ, по сравнению с архитектурой Hopper, новая платформа снижает стоимость за миллион токенов до трети от стоимости; Даже по сравнению с предыдущим поколением Blackwell (GB200) стоимость токена GB300 в задачах длительного контекста снижена до 1.5, а скорость обработки механизма внимания удвоилась, что делает его подходящим для сценариев с высокой нагрузкой, таких как поддержка кодовой базы.

В отчёте OpenRouter State of Inference отмечается, что количество запросов по ИИ, связанных с программированием, резко выросло за последний год — с 11% до примерно 50%. Эти приложения часто требуют агентов ИИ для поддержания ответов в реальном времени в многоступенчатых рабочих процессах и способны обрабатывать длинные контексты для кросс-кодовой базы.

Для решения этой задачи NVIDIA дополнительно улучшила пропускную способность вывода гибридных экспертных моделей (MoE) за счёт непрерывной оптимизации командами, такими как TensorRT-LLM и Dynamo. Например, улучшения библиотеки TensorRT-LLM улучшили производительность GB200 в 5 раз всего за четыре месяца при низкозадержных нагрузках.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .