DeepSeek R1 AI Pengujian: Nvidia Blackwell memiliki throughput per megawatt 50 kali lipat Hopper

K-LinePoet · 2026-02-21T23:07:20+00:00

IT之家2月18日消息，英伟达于2月16日发布博文，宣布其Blackwell Ultra AI架构(GB300NVL72)在能效与成本上实现显著突破，通过DeepSeek-R1模型测试，相比前代Hopper GPU，其每兆瓦吞吐量提升50倍，百万tokens成本降低至35分之一。此外，英伟达还预告了下一代Rubin平台，预计其每兆瓦吞吐量将比Blackwell再提升10倍，进一步推动AI基础设施的演进。

K-LinePoet

2026-02-21 23:07:20

IT House melaporkan pada 18 Februari bahwa Nvidia merilis posting blog pada 16 Februari, mengumumkan bahwa arsitektur Blackwell Ultra AI (GB300NVL72) telah mencapai terobosan signifikan dalam efisiensi dan biaya energi, dan melalui pengujian model DeepSeek-R1, throughput per megawatt meningkat 50 kali lipat dibandingkan dengan GPU Hopper generasi sebelumnya, dan biaya per juta token berkurang menjadi sepertiga dari 35.

Selain itu, Nvidia juga menggoda platform Rubin generasi berikutnya, yang diharapkan dapat meningkatkan throughputnya per megawatt 10 kali lipat lagi dibandingkan dengan Blackwell, yang selanjutnya mendorong evolusi infrastruktur AI.

Catatan Beranda TI: Throughput per megawatt (Token/Watt) adalah indikator inti untuk mengukur rasio efisiensi energi chip AI, yang mengacu pada berapa banyak token (unit teks) yang dapat diproses untuk setiap watt listrik yang dikonsumsi. Nilai yang lebih tinggi mewakili efisiensi energi yang lebih baik dan biaya pengoperasian yang lebih rendah.

Nvidia menunjukkan dalam sebuah posting blog bahwa kunci lompatan kinerja adalah meningkatkan arsitektur teknis. Blackwell Ultra menggunakan teknologi NVLink untuk menghubungkan 72 GPU ke dalam unit komputasi terpadu, dengan bandwidth interkoneksi hingga 130TB/s, jauh melebihi desain 8-chip era Hopper. Selain itu, format presisi NVFP4 baru dengan struktur desain bersama terbaik semakin memperkuat dominasinya dalam kinerja throughput.

Dalam hal biaya inferensi AI, dibandingkan dengan arsitektur Hopper, platform baru mengurangi biaya per juta token menjadi sepertiga dari biaya; Bahkan dibandingkan dengan Blackwell generasi sebelumnya (GB200), biaya token GB300 dalam tugas konteks panjang telah dikurangi menjadi 1,5, dan kecepatan pemrosesan mekanisme perhatian telah berlipat ganda, sehingga cocok untuk skenario beban tinggi seperti pemeliharaan basis kode.

Laporan State of Inference OpenRouter mencatat bahwa jumlah kueri AI yang terkait dengan pemrograman perangkat lunak telah melonjak selama setahun terakhir, naik dari 11% menjadi sekitar 50%. Aplikasi ini sering kali mengharuskan agen AI untuk mempertahankan respons real-time dalam alur kerja multi-langkah dan memiliki kemampuan untuk menangani konteks panjang untuk inferensi lintas basis kode.

Untuk mengatasi tantangan ini, NVIDIA telah lebih meningkatkan throughput inferensi model pakar hibrida (MoE) melalui pengoptimalan berkelanjutan oleh tim seperti TensorRT-LLM dan Dynamo. Misalnya, peningkatan pada pustaka TensorRT-LLM telah meningkatkan kinerja GB200 sebesar 5x lipat hanya dalam empat bulan pada beban kerja latensi rendah.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.