Penilaian tolok ukur terbaru mengungkapkan pencapaian signifikan di berbagai kerangka evaluasi AI. Model kini menduduki peringkat teratas di papan peringkat OpenRouter, memproses sekitar 489 miliar token dengan dominasi kategori sebesar 31,2% dan menguasai 116 miliar token dalam tolok ukur bahasa-spesifik.
Hasil ini melampaui peringkat umum—sistem juga mengklaim posisi pertama di papan peringkat Kilo Code dan Roo Code, lingkungan khusus yang dirancang untuk mengevaluasi kemampuan generasi kode dan penalaran. Penilaian EQ-Bench3 lebih lanjut mengonfirmasi metrik kinerja tingkat lanjut, menunjukkan keunggulan konsisten di berbagai metodologi evaluasi teknis.
Data kumulatif menunjukkan peningkatan substansial dalam efisiensi model, optimisasi pemrosesan token, dan pengembangan kemampuan lintas domain. Kemajuan semacam ini penting bagi pengembang yang mengintegrasikan solusi AI ke dalam aplikasi blockchain dan sistem terdesentralisasi, di mana keandalan komputasi dan konsistensi kinerja secara langsung mempengaruhi pengalaman pengguna dan skalabilitas platform.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
9 Suka
Hadiah
9
3
Posting ulang
Bagikan
Komentar
0/400
NFTRegretter
· 6jam yang lalu
Kembali dikalahkan oleh benchmark Grok, angka ini benar-benar tidak bisa lagi dipertahankan
Lihat AsliBalas0
WalletDetective
· 6jam yang lalu
grok kembali bersaing, data ini terlihat cukup mengesankan...489B token dan sebagainya, bagaimanapun juga saya tidak mengerti, tetapi menjadi yang pertama tetap patut diperhatikan.
Lihat AsliBalas0
BugBountyHunter
· 6jam yang lalu
grok lagi trending lagi... angka 489B token ini terdengar tidak masuk akal, benar atau tidak?
Grok Pencapaian Tonggak Kinerja
Penilaian tolok ukur terbaru mengungkapkan pencapaian signifikan di berbagai kerangka evaluasi AI. Model kini menduduki peringkat teratas di papan peringkat OpenRouter, memproses sekitar 489 miliar token dengan dominasi kategori sebesar 31,2% dan menguasai 116 miliar token dalam tolok ukur bahasa-spesifik.
Hasil ini melampaui peringkat umum—sistem juga mengklaim posisi pertama di papan peringkat Kilo Code dan Roo Code, lingkungan khusus yang dirancang untuk mengevaluasi kemampuan generasi kode dan penalaran. Penilaian EQ-Bench3 lebih lanjut mengonfirmasi metrik kinerja tingkat lanjut, menunjukkan keunggulan konsisten di berbagai metodologi evaluasi teknis.
Data kumulatif menunjukkan peningkatan substansial dalam efisiensi model, optimisasi pemrosesan token, dan pengembangan kemampuan lintas domain. Kemajuan semacam ini penting bagi pengembang yang mengintegrasikan solusi AI ke dalam aplikasi blockchain dan sistem terdesentralisasi, di mana keandalan komputasi dan konsistensi kinerja secara langsung mempengaruhi pengalaman pengguna dan skalabilitas platform.