DeepSeek R1 AI тест: пропускная способность Nvidia Blackwell на мегаватт в 50 раз превышает Hopper

IT House сообщил 18 февраля, что Nvidia опубликовала блог-пост 16 февраля, в котором сообщил, что её архитектура Blackwell Ultra AI (GB300NVL72) достигла значительных прорывов в энергоэффективности и стоимости, а благодаря тесту модели DeepSeek-R1 её пропускная способность на мегаватт увеличена в 50 раз по сравнению с предыдущим поколением GPU Hopper, а стоимость за миллион токенов снижена до трети от 35.

Кроме того, Nvidia также анонсировала платформу следующего поколения Rubin, которая, как ожидается, увеличит свою пропускную способность на мегаватт ещё в 10 раз по сравнению с Blackwell, что ещё больше стимулирует развитие инфраструктуры ИИ.

IT Home Примечание: Пропускная способность на мегаватт (токены/ватт) — это основной индикатор для измерения коэффициента энергоэффективности чипов ИИ, который указывает на количество токенов (текстовых единиц) обработки на каждый потребляемый ватт электроэнергии. Более высокие значения свидетельствуют о лучшей энергоэффективности и снижении эксплуатационных затрат.

Nvidia отметила в блоге, что ключ к скачку производительности — это обновление технической архитектуры. Blackwell Ultra использует технологию NVLink для соединения 72 GPU в единый вычислительный блок с пропускной способностью до 130 ТБ/с, что значительно превышает 8-чиповую конструкцию эпохи Hopper. Кроме того, новый прецизионный формат NVFP4 с конечной структурой совместного проектирования ещё больше укрепляет его лидерство в производительности.

Что касается затрат на вывод ИИ, по сравнению с архитектурой Hopper, новая платформа снижает стоимость за миллион токенов до трети от стоимости; Даже по сравнению с предыдущим поколением Blackwell (GB200) стоимость токена GB300 в задачах длительного контекста снижена до 1.5, а скорость обработки механизма внимания удвоилась, что делает его подходящим для сценариев с высокой нагрузкой, таких как поддержка кодовой базы.

В отчёте OpenRouter State of Inference отмечается, что количество запросов по ИИ, связанных с программированием, резко выросло за последний год — с 11% до примерно 50%. Эти приложения часто требуют агентов ИИ для поддержания ответов в реальном времени в многоступенчатых рабочих процессах и способны обрабатывать длинные контексты для кросс-кодовой базы.

Для решения этой задачи NVIDIA дополнительно улучшила пропускную способность вывода гибридных экспертных моделей (MoE) за счёт непрерывной оптимизации командами, такими как TensorRT-LLM и Dynamo. Например, улучшения библиотеки TensorRT-LLM улучшили производительность GB200 в 5 раз всего за четыре месяца при низкозадержных нагрузках.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить