OpenAI memperkenalkan GDPval, sebuah tolok ukur yang mengevaluasi kinerja model AI pada tugas-tugas ekonomi yang bernilai nyata yang mencakup 1.320 tugas di 44 pekerjaan dari 9 sektor teratas yang berkontribusi terhadap PDB AS.
Claude Opus 4.1 adalah model dengan kinerja terbaik di mana 47,6% dari hasil yang diberikan
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
17 Suka
Hadiah
17
6
Posting ulang
Bagikan
Komentar
0/400
AlphaWhisperer
· 7jam yang lalu
Ini adalah kompetisi data lagi, sudah bosan.
Lihat AsliBalas0
FloorSweeper
· 7jam yang lalu
alpha lemah... bahkan tidak mendekati apa yang akan datang fr
Lihat AsliBalas0
SleepyArbCat
· 7jam yang lalu
Hah, lebih baik dari pada tingkat pengembalian MEV malam.
Lihat AsliBalas0
MultiSigFailMaster
· 8jam yang lalu
Belum setengah lulus Jaringan syaraf terlalu tidak berguna
OpenAI memperkenalkan GDPval, sebuah tolok ukur yang mengevaluasi kinerja model AI pada tugas-tugas ekonomi yang bernilai nyata yang mencakup 1.320 tugas di 44 pekerjaan dari 9 sektor teratas yang berkontribusi terhadap PDB AS.
Claude Opus 4.1 adalah model dengan kinerja terbaik di mana 47,6% dari hasil yang diberikan