OpenAI, ABD GSYİH'sine katkıda bulunan en üst 9 sektörden 44 meslek arasında 1,320 görev içeren, gerçek dünyada ekonomik olarak değerli görevlerde AI model performansını değerlendiren GDPval adlı bir ölçek geliştirdi.
Claude Opus 4.1, teslimatların %47.6'sının en iyi performans gösteren modeliydi.
View Original