IT House đã báo cáo vào ngày 18 tháng 2 rằng Nvidia đã phát hành một bài đăng trên blog vào ngày 16 tháng 2, thông báo rằng kiến trúc Blackwell Ultra AI (GB300NVL72) của họ đã đạt được những đột phá đáng kể về hiệu quả năng lượng và chi phí, và thông qua thử nghiệm mô hình DeepSeek-R1, thông lượng trên mỗi megawatt của nó tăng gấp 50 lần so với GPU Hopper thế hệ trước và chi phí trên mỗi triệu token giảm xuống còn một phần ba so với 35.
Ngoài ra, Nvidia cũng hé lộ nền tảng Rubin thế hệ tiếp theo, dự kiến sẽ tăng thông lượng trên mỗi megawatt thêm 10 lần so với Blackwell, thúc đẩy hơn nữa sự phát triển của cơ sở hạ tầng AI.
Trang chủ CNTT Lưu ý: Thông lượng trên mỗi megawatt (Token/Watt) là chỉ số cốt lõi để đo lường tỷ lệ hiệu quả năng lượng của chip AI, đề cập đến số lượng mã thông báo (đơn vị văn bản) có thể được xử lý cho mỗi watt điện năng tiêu thụ. Giá trị cao hơn thể hiện hiệu quả năng lượng tốt hơn và chi phí vận hành thấp hơn.
Nvidia đã chỉ ra trong một bài đăng trên blog rằng chìa khóa cho một bước nhảy vọt về hiệu suất là nâng cấp kiến trúc kỹ thuật. Blackwell Ultra sử dụng công nghệ NVLink để kết nối 72 GPU thành một đơn vị tính toán thống nhất, với băng thông kết nối lên đến 130TB/s, vượt xa thiết kế 8 chip của thời đại Hopper. Ngoài ra, định dạng chính xác NVFP4 mới với cấu trúc đồng thiết kế tối ưu càng củng cố sự thống trị của nó về hiệu suất thông lượng.
Về chi phí suy luận AI, so với kiến trúc Hopper, nền tảng mới giảm chi phí trên mỗi triệu token xuống còn một phần ba chi phí; Ngay cả khi so sánh với Blackwell (GB200) thế hệ trước, chi phí token của GB300 trong các tác vụ ngữ cảnh dài đã giảm xuống còn 1,5 và tốc độ xử lý của cơ chế chú ý đã tăng gấp đôi, phù hợp với các tình huống tải cao như bảo trì cơ sở mã.
Báo cáo State of Inference của OpenRouter lưu ý rằng số lượng truy vấn AI liên quan đến lập trình phần mềm đã tăng vọt trong năm qua, tăng từ 11% lên khoảng 50%. Các ứng dụng này thường yêu cầu các tác nhân AI duy trì phản hồi theo thời gian thực trong quy trình làm việc nhiều bước và có khả năng xử lý ngữ cảnh dài để suy luận cơ sở mã chéo.
Để giải quyết thách thức này, NVIDIA đã cải thiện hơn nữa thông lượng suy luận của các mô hình chuyên gia lai (MoE) thông qua việc tối ưu hóa liên tục bởi các nhóm như TensorRT-LLM và Dynamo. Ví dụ: những cải tiến đối với thư viện TensorRT-LLM đã cải thiện hiệu suất của GB200 lên gấp 5 lần chỉ trong bốn tháng trên khối lượng công việc có độ trễ thấp.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
DeepSeek R1 AI thử nghiệm: Nvidia Blackwell mỗi megawatt có khả năng xử lý gấp 50 lần Hopper
IT House đã báo cáo vào ngày 18 tháng 2 rằng Nvidia đã phát hành một bài đăng trên blog vào ngày 16 tháng 2, thông báo rằng kiến trúc Blackwell Ultra AI (GB300NVL72) của họ đã đạt được những đột phá đáng kể về hiệu quả năng lượng và chi phí, và thông qua thử nghiệm mô hình DeepSeek-R1, thông lượng trên mỗi megawatt của nó tăng gấp 50 lần so với GPU Hopper thế hệ trước và chi phí trên mỗi triệu token giảm xuống còn một phần ba so với 35.
Ngoài ra, Nvidia cũng hé lộ nền tảng Rubin thế hệ tiếp theo, dự kiến sẽ tăng thông lượng trên mỗi megawatt thêm 10 lần so với Blackwell, thúc đẩy hơn nữa sự phát triển của cơ sở hạ tầng AI.
Trang chủ CNTT Lưu ý: Thông lượng trên mỗi megawatt (Token/Watt) là chỉ số cốt lõi để đo lường tỷ lệ hiệu quả năng lượng của chip AI, đề cập đến số lượng mã thông báo (đơn vị văn bản) có thể được xử lý cho mỗi watt điện năng tiêu thụ. Giá trị cao hơn thể hiện hiệu quả năng lượng tốt hơn và chi phí vận hành thấp hơn.
Nvidia đã chỉ ra trong một bài đăng trên blog rằng chìa khóa cho một bước nhảy vọt về hiệu suất là nâng cấp kiến trúc kỹ thuật. Blackwell Ultra sử dụng công nghệ NVLink để kết nối 72 GPU thành một đơn vị tính toán thống nhất, với băng thông kết nối lên đến 130TB/s, vượt xa thiết kế 8 chip của thời đại Hopper. Ngoài ra, định dạng chính xác NVFP4 mới với cấu trúc đồng thiết kế tối ưu càng củng cố sự thống trị của nó về hiệu suất thông lượng.
Về chi phí suy luận AI, so với kiến trúc Hopper, nền tảng mới giảm chi phí trên mỗi triệu token xuống còn một phần ba chi phí; Ngay cả khi so sánh với Blackwell (GB200) thế hệ trước, chi phí token của GB300 trong các tác vụ ngữ cảnh dài đã giảm xuống còn 1,5 và tốc độ xử lý của cơ chế chú ý đã tăng gấp đôi, phù hợp với các tình huống tải cao như bảo trì cơ sở mã.
Báo cáo State of Inference của OpenRouter lưu ý rằng số lượng truy vấn AI liên quan đến lập trình phần mềm đã tăng vọt trong năm qua, tăng từ 11% lên khoảng 50%. Các ứng dụng này thường yêu cầu các tác nhân AI duy trì phản hồi theo thời gian thực trong quy trình làm việc nhiều bước và có khả năng xử lý ngữ cảnh dài để suy luận cơ sở mã chéo.
Để giải quyết thách thức này, NVIDIA đã cải thiện hơn nữa thông lượng suy luận của các mô hình chuyên gia lai (MoE) thông qua việc tối ưu hóa liên tục bởi các nhóm như TensorRT-LLM và Dynamo. Ví dụ: những cải tiến đối với thư viện TensorRT-LLM đã cải thiện hiệu suất của GB200 lên gấp 5 lần chỉ trong bốn tháng trên khối lượng công việc có độ trễ thấp.