A OpenAI introduziu o GDPval, um benchmark que avalia o desempenho de modelos de IA em tarefas economicamente valiosas do mundo real, abrangendo 1.320 tarefas em 44 ocupações dos 9 principais setores que contribuem para o PIB dos EUA.
Claude Opus 4.1 foi o modelo com melhor desempenho, onde 47,6% dos entregáveis
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
17 Curtidas
Recompensa
17
6
Repostar
Compartilhar
Comentário
0/400
AlphaWhisperer
· 4h atrás
Mais uma competição de dados, já estou farto.
Ver originalResponder0
FloorSweeper
· 4h atrás
fraco alpha... nem chega perto do que está por vir fr
Ver originalResponder0
SleepyArbCat
· 4h atrás
Hã, ainda é pior do que a taxa de rendimento MEV de uma noite.
Ver originalResponder0
MultiSigFailMaster
· 5h atrás
Menos da metade passou. As redes neurais são uma grande decepção.
A OpenAI introduziu o GDPval, um benchmark que avalia o desempenho de modelos de IA em tarefas economicamente valiosas do mundo real, abrangendo 1.320 tarefas em 44 ocupações dos 9 principais setores que contribuem para o PIB dos EUA.
Claude Opus 4.1 foi o modelo com melhor desempenho, onde 47,6% dos entregáveis