OpenAI مفتوح المصدر PaperBench ، إعادة تشكيل تقييمات أفضل وكيل ذكاء اصطناعي

robot
إنشاء الملخص قيد التقدم

جين10 بيانات 3 أبريل ، اليوم في الساعة 1 صباحًا ، أصدرت OpenAI معيار تقييم جديد لوكلاء الذكاء الاصطناعي - PaperBench. هذا المعيار يقيم بشكل أساسي قدرات الوكلاء في البحث والتكامل والتنفيذ ، ويتطلب إعادة إنتاج أفضل الأوراق البحثية في مؤتمر التعلم الآلي الدولي لعام 2024 ، بما في ذلك فهم محتوى الورقة وكتابة الشيفرة وتنفيذ التجارب. وفقًا لبيانات اختبار OpenAI المنشورة ، لا تزال الوكلاء التي تم إنشاؤها بواسطة نماذج كبيرة معروفة غير قادرة على التغلب على أفضل حاملي الدكتوراه في التعلم الآلي. لكنهم مفيدون جدًا في دعم التعلم وفهم محتوى البحث.

AGENT3.81%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخنعرض المزيد
  • القيمة السوقية:$594.8Kعدد الحائزين:10608
  • القيمة السوقية:$811.7Kعدد الحائزين:7148
  • القيمة السوقية:$690.5Kعدد الحائزين:130
  • القيمة السوقية:$113.3Kعدد الحائزين:3257
  • القيمة السوقية:$86Kعدد الحائزين:181
  • تثبيت