OpenAI, ABD GSYİH'sine katkıda bulunan en üst 9 sektörden 44 meslek arasında 1,320 görev içeren, gerçek dünyada ekonomik olarak değerli görevlerde AI model performansını değerlendiren GDPval adlı bir ölçek geliştirdi.
Claude Opus 4.1, teslimatların %47.6'sının en iyi performans gösteren modeliydi.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
17 Likes
Reward
17
6
Repost
Share
Comment
0/400
AlphaWhisperer
· 4h ago
Yine bir veri yarışması, bıktım artık.
View OriginalReply0
FloorSweeper
· 4h ago
zayıf alfa... gelenlerle bile uzaktan yakın değil
View OriginalReply0
SleepyArbCat
· 4h ago
Ha, bir gecelik MEV getirisi kadar bile değil.
View OriginalReply0
MultiSigFailMaster
· 4h ago
Yarısından az geçiyor, sinir ağları çok işe yaramaz.
OpenAI, ABD GSYİH'sine katkıda bulunan en üst 9 sektörden 44 meslek arasında 1,320 görev içeren, gerçek dünyada ekonomik olarak değerli görevlerde AI model performansını değerlendiren GDPval adlı bir ölçek geliştirdi.
Claude Opus 4.1, teslimatların %47.6'sının en iyi performans gösteren modeliydi.