A OpenAI introduziu o GDPval, um benchmark que avalia o desempenho de modelos de IA em tarefas economicamente valiosas do mundo real, abrangendo 1.320 tarefas em 44 ocupações dos 9 principais setores que contribuem para o PIB dos EUA.
Claude Opus 4.1 foi o modelo com melhor desempenho, onde 47,6% dos entregáveis
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
17 gostos
Recompensa
17
6
Republicar
Partilhar
Comentar
0/400
AlphaWhisperer
· 6h atrás
Mais uma competição de dados, já estou farto.
Ver originalResponder0
FloorSweeper
· 6h atrás
fraco alpha... nem chega perto do que está por vir fr
Ver originalResponder0
SleepyArbCat
· 6h atrás
Hã, ainda é pior do que a taxa de rendimento MEV de uma noite.
Ver originalResponder0
MultiSigFailMaster
· 6h atrás
Menos da metade passou. As redes neurais são uma grande decepção.
A OpenAI introduziu o GDPval, um benchmark que avalia o desempenho de modelos de IA em tarefas economicamente valiosas do mundo real, abrangendo 1.320 tarefas em 44 ocupações dos 9 principais setores que contribuem para o PIB dos EUA.
Claude Opus 4.1 foi o modelo com melhor desempenho, onde 47,6% dos entregáveis