Karyawan OpenAI secara terbuka menuduh hasil uji coba Benchmark dari model AI terbaru xAI Grok3 memiliki sifat yang menyesatkan

robot
Pembuatan abstrak sedang berlangsung

Pesan ChainCatcher, seperti dilaporkan oleh Jinshi, seorang karyawan OpenAI secara terbuka menuduh perusahaan XAI di bawah kendali Musk, menyatakan bahwa hasil uji Benchmark terbaru dari model AI Grok3 yang dirilis oleh perusahaan tersebut menyesatkan. Igor Babushkin, salah satu pendiri XAI, dengan tegas menyatakan bahwa perusahaannya tidak melakukan hal yang tidak semestinya. Grafik xAI menunjukkan bahwa dua versi Grok3 - Grok3 Reasoning Beta dan Grok3 mini Reasoning - memiliki kinerja di atas model yang paling kuat yang saat ini tersedia dari OpenAI, o3-mini-high, di AIME 2025. Namun, staf OpenAI dengan cepat menunjukkan di platform X bahwa grafik xAI tidak mencakup skor AIME 2025 o3-mini-high dalam kondisi "cons@64". Babu Bushkin berpendapat di platform X bahwa OpenAI juga pernah merilis grafik uji benchmark yang menyesatkan serupa di masa lalu. Meskipun grafik tersebut digunakan untuk membandingkan kinerja model mereka sendiri.

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • Komentar
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)