OpenAI a introduit GDPval, un benchmark évaluant la performance des modèles d'IA sur des tâches économiquement précieuses du monde réel, couvrant 1 320 tâches dans 44 professions des 9 principaux secteurs contribuant au PIB des États-Unis.
Claude Opus 4.1 était le modèle le plus performant avec 47,6 % des livrables
Voir l'original