A OpenAI introduziu o GDPval, um benchmark que avalia o desempenho de modelos de IA em tarefas economicamente valiosas do mundo real, abrangendo 1.320 tarefas em 44 ocupações dos 9 principais setores que contribuem para o PIB dos EUA.
Claude Opus 4.1 foi o modelo com melhor desempenho, onde 47,6% dos entregáveis
Ver original