Karyawan OpenAI secara terbuka menuduh hasil uji coba Benchmark dari model AI terbaru xAI Grok3 memiliki sifat yang menyesatkan

ChainCatcher

2025-02-23 09:44:47

Pembuatan abstrak sedang berlangsung

Pesan ChainCatcher, seperti dilaporkan oleh Jinshi, seorang karyawan OpenAI secara terbuka menuduh perusahaan XAI di bawah kendali Musk, menyatakan bahwa hasil uji Benchmark terbaru dari model AI Grok3 yang dirilis oleh perusahaan tersebut menyesatkan. Igor Babushkin, salah satu pendiri XAI, dengan tegas menyatakan bahwa perusahaannya tidak melakukan hal yang tidak semestinya. Grafik xAI menunjukkan bahwa dua versi Grok3 - Grok3 Reasoning Beta dan Grok3 mini Reasoning - memiliki kinerja di atas model yang paling kuat yang saat ini tersedia dari OpenAI, o3-mini-high, di AIME 2025. Namun, staf OpenAI dengan cepat menunjukkan di platform X bahwa grafik xAI tidak mencakup skor AIME 2025 o3-mini-high dalam kondisi “cons@64”. Babu Bushkin berpendapat di platform X bahwa OpenAI juga pernah merilis grafik uji benchmark yang menyesatkan serupa di masa lalu. Meskipun grafik tersebut digunakan untuk membandingkan kinerja model mereka sendiri.

XAI-3.47%

GROK-4.86%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka