OpenAI đã giới thiệu GDPval, một tiêu chuẩn đánh giá hiệu suất của mô hình AI trên các nhiệm vụ có giá trị kinh tế thực tế bao gồm 1.320 nhiệm vụ trong 44 nghề nghiệp từ 9 lĩnh vực hàng đầu đóng góp cho GDP của Hoa Kỳ
Claude Opus 4.1 là mô hình hoạt động tốt nhất với 47,6% sản phẩm giao.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
17 thích
Phần thưởng
17
6
Đăng lại
Chia sẻ
Bình luận
0/400
AlphaWhisperer
· 12giờ trước
Lại một cuộc thi dữ liệu nữa, chán quá.
Xem bản gốcTrả lời0
FloorSweeper
· 12giờ trước
alpha yếu... không gần bằng những gì sắp đến fr
Xem bản gốcTrả lời0
SleepyArbCat
· 12giờ trước
Hả, còn không bằng lợi suất MEV của một đêm.
Xem bản gốcTrả lời0
MultiSigFailMaster
· 13giờ trước
Chưa đến một nửa đạt yêu cầu, mạng nơ-ron thật vô dụng.
OpenAI đã giới thiệu GDPval, một tiêu chuẩn đánh giá hiệu suất của mô hình AI trên các nhiệm vụ có giá trị kinh tế thực tế bao gồm 1.320 nhiệm vụ trong 44 nghề nghiệp từ 9 lĩnh vực hàng đầu đóng góp cho GDP của Hoa Kỳ
Claude Opus 4.1 là mô hình hoạt động tốt nhất với 47,6% sản phẩm giao.