شركة إنفيديا تُعلن عن تقدم كبير في كفاءة استهلاك الطاقة وتخفيض التكاليف في بنية Blackwell Ultra AI
في 18 فبراير، أصدرت شركة إنفيديا منشورًا أعلنت فيه أن بنية Blackwell Ultra AI (GB300NVL72) حققت قفزات ملحوظة في الكفاءة من حيث استهلاك الطاقة والتكلفة، حيث أظهرت نتائج اختبار نموذج DeepSeek-R1 أن الأداء لكل ميغاواط زاد بمقدار 50 مرة مقارنة مع وحدة معالجة الرسوم Hopper السابقة، وانخفضت تكلفة كل مليون رمز إلى خُمسها.
بالإضافة إلى ذلك، كشفت إنفيديا عن منصة Rubin الجيل القادم، والتي من المتوقع أن تزيد من خلال الأداء لكل ميغاواط بمقدار 10 أضعاف مقارنة بـ Blackwell، مما يعزز تطور بنية الذكاء الاصطناعي الأساسية.
ملاحظة من IT之家: يُعد معدل الأداء لكل ميغاواط (Tokens/Watt) المقياس الرئيسي لكفاءة استهلاك الطاقة في شرائح الذكاء الاصطناعي، ويشير إلى عدد الرموز (وحدات النص) التي يمكن معالجتها مقابل واط واحد من الطاقة. كلما ارتفع الرقم، كانت الكفاءة أفضل وتكاليف التشغيل أقل.
وفي منشورها، أوضحت إنفيديا أن السر وراء القفزات في الأداء هو ترقية الهيكلية التقنية. حيث يستخدم Blackwell Ultra تقنية NVLink لربط 72 وحدة معالجة رسومية في وحدة حسابية موحدة، مع عرض نطاق تواصل يصل إلى 130 تيرابايت في الثانية، متفوقًا بشكل كبير على تصميم الثماني شرائح في عصر Hopper. بالإضافة إلى ذلك، فإن تنسيق الدقة NVFP4 الجديد، مع تصميم تعاوني متطور، يعزز بشكل كبير من سيطرتها على أداء المعالجة.
وفيما يخص تكلفة الاستدلال في الذكاء الاصطناعي، فإن المنصة الجديدة تقلل من تكلفة كل مليون رمز إلى خُمسها مقارنة مع بنية Hopper؛ وحتى مقارنة مع الجيل السابق Blackwell (GB200)، فإن GB300 يقلل تكلفة الرموز في المهام ذات السياق الطويل إلى نصفها، مع مضاعفة سرعة معالجة آليات الانتباه، مما يجعله مناسبًا لسيناريوهات تتطلب صيانة عالية مثل إدارة قواعد البيانات.
وأشارت تقارير “推理状态报告” من OpenRouter إلى أن حجم استعلامات الذكاء الاصطناعي المرتبطة بالبرمجة زاد بشكل كبير خلال العام الماضي، حيث ارتفعت نسبة الطلبات من 11% إلى حوالي 50%. وغالبًا ما تتطلب هذه التطبيقات أن يحافظ الوكيل الذكي على استجابة فورية خلال عمليات متعددة، مع القدرة على استنتاج عبر قواعد بيانات متعددة في سياق طويل.
ولمواجهة هذا التحدي، وبتوجيه من فرق TensorRT-LLM وDynamo، واصلت إنفيديا تحسين أداء نماذج الخبراء المختلطة (MoE). على سبيل المثال، أدت تحسينات مكتبة TensorRT-LLM إلى رفع أداء GB200 في الأحمال ذات الكمون المنخفض بمقدار 5 أضعاف خلال أربعة أشهر فقط.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
اختبار DeepSeek R1 AI: تبلغ قدرة المعالجة لكل ميغاواط من إنفيديا بلاكويل 50 ضعف هوبير
شركة إنفيديا تُعلن عن تقدم كبير في كفاءة استهلاك الطاقة وتخفيض التكاليف في بنية Blackwell Ultra AI
في 18 فبراير، أصدرت شركة إنفيديا منشورًا أعلنت فيه أن بنية Blackwell Ultra AI (GB300NVL72) حققت قفزات ملحوظة في الكفاءة من حيث استهلاك الطاقة والتكلفة، حيث أظهرت نتائج اختبار نموذج DeepSeek-R1 أن الأداء لكل ميغاواط زاد بمقدار 50 مرة مقارنة مع وحدة معالجة الرسوم Hopper السابقة، وانخفضت تكلفة كل مليون رمز إلى خُمسها.
بالإضافة إلى ذلك، كشفت إنفيديا عن منصة Rubin الجيل القادم، والتي من المتوقع أن تزيد من خلال الأداء لكل ميغاواط بمقدار 10 أضعاف مقارنة بـ Blackwell، مما يعزز تطور بنية الذكاء الاصطناعي الأساسية.
ملاحظة من IT之家: يُعد معدل الأداء لكل ميغاواط (Tokens/Watt) المقياس الرئيسي لكفاءة استهلاك الطاقة في شرائح الذكاء الاصطناعي، ويشير إلى عدد الرموز (وحدات النص) التي يمكن معالجتها مقابل واط واحد من الطاقة. كلما ارتفع الرقم، كانت الكفاءة أفضل وتكاليف التشغيل أقل.
وفي منشورها، أوضحت إنفيديا أن السر وراء القفزات في الأداء هو ترقية الهيكلية التقنية. حيث يستخدم Blackwell Ultra تقنية NVLink لربط 72 وحدة معالجة رسومية في وحدة حسابية موحدة، مع عرض نطاق تواصل يصل إلى 130 تيرابايت في الثانية، متفوقًا بشكل كبير على تصميم الثماني شرائح في عصر Hopper. بالإضافة إلى ذلك، فإن تنسيق الدقة NVFP4 الجديد، مع تصميم تعاوني متطور، يعزز بشكل كبير من سيطرتها على أداء المعالجة.
وفيما يخص تكلفة الاستدلال في الذكاء الاصطناعي، فإن المنصة الجديدة تقلل من تكلفة كل مليون رمز إلى خُمسها مقارنة مع بنية Hopper؛ وحتى مقارنة مع الجيل السابق Blackwell (GB200)، فإن GB300 يقلل تكلفة الرموز في المهام ذات السياق الطويل إلى نصفها، مع مضاعفة سرعة معالجة آليات الانتباه، مما يجعله مناسبًا لسيناريوهات تتطلب صيانة عالية مثل إدارة قواعد البيانات.
وأشارت تقارير “推理状态报告” من OpenRouter إلى أن حجم استعلامات الذكاء الاصطناعي المرتبطة بالبرمجة زاد بشكل كبير خلال العام الماضي، حيث ارتفعت نسبة الطلبات من 11% إلى حوالي 50%. وغالبًا ما تتطلب هذه التطبيقات أن يحافظ الوكيل الذكي على استجابة فورية خلال عمليات متعددة، مع القدرة على استنتاج عبر قواعد بيانات متعددة في سياق طويل.
ولمواجهة هذا التحدي، وبتوجيه من فرق TensorRT-LLM وDynamo، واصلت إنفيديا تحسين أداء نماذج الخبراء المختلطة (MoE). على سبيل المثال، أدت تحسينات مكتبة TensorRT-LLM إلى رفع أداء GB200 في الأحمال ذات الكمون المنخفض بمقدار 5 أضعاف خلال أربعة أشهر فقط.