DeepSeek R1 AI тест: пропускна здатність NVIDIA Blackwell на мегават у 50 разів перевищує Hopper

IT House повідомила 18 лютого, що Nvidia опублікувала блог-пост 16 лютого, в якому повідомила, що її архітектура Blackwell Ultra AI (GB300NVL72) досягла значних проривів у енергоефективності та вартості, а завдяки тесту моделі DeepSeek-R1 її пропускна здатність на мегават зросла у 50 разів порівняно з GPU попереднього покоління Hopper, а вартість за мільйон токенів знижується до третини 35.

Крім того, Nvidia також анонсувала платформу наступного покоління Rubin, яка, як очікується, збільшить свою пропускну здатність на мегават ще в 10 разів порівняно з Blackwell, що ще більше стимулює розвиток інфраструктури ШІ.

IT Home Примітка: Пропускна здатність на мегават (токени/ват) є основним індикатором для вимірювання коефіцієнта енергоефективності чіпів ШІ, що означає, скільки токенів (текстових одиниць) може бути оброблено на кожен спожитий ват електроенергії. Вищі значення означають кращу енергоефективність і нижчі експлуатаційні витрати.

Nvidia зазначила у блозі, що ключ до стрибка продуктивності — це оновлення технічної архітектури. Blackwell Ultra використовує технологію NVLink для з’єднання 72 GPU в єдиний обчислювальний блок із пропускною здатністю до 130 ТБ/с, що значно перевищує 8-чипову конструкцію епохи Hopper. Крім того, новий формат точності NVFP4 з остаточною структурою спільного дизайну ще більше закріплює його домінування у продуктивності.

Щодо витрат на виведення ШІ, порівняно з архітектурою Hopper, нова платформа знижує вартість за мільйон токенів до третини вартості; Навіть порівняно з попереднім поколінням Blackwell (GB200), вартість токена GB300 у задачах довгого контексту знизилася до 1,5, а швидкість обробки механізму уваги подвоїлася, що робить його придатним для сценаріїв з високим навантаженням, таких як підтримка кодової бази.

Звіт OpenRouter State of Inference Report зазначає, що кількість AI-запитів, пов’язаних із програмуванням, різко зросла за останній рік — з 11% до приблизно 50%. Ці застосунки часто потребують агентів ШІ для підтримки відповідей у реальному часі в багатокрокових робочих процесах і мають можливість обробляти довгі контексти для крос-кодового висновку.

Щоб вирішити цю проблему, NVIDIA ще більше покращила пропускну здатність виведення гібридних експертних моделей (MoE) завдяки безперервній оптимізації командами, такими як TensorRT-LLM і Dynamo. Наприклад, покращення бібліотеки TensorRT-LLM покращили продуктивність GB200 у 5 разів всього за чотири місяці на навантаженнях з низькою затримкою.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити