ありきたりな意見:AIモデルのリリースが飽きてきた。
改善されていないわけではない…確かにそうだ。
でも、リリースされるたびにただ…ベンチマークの結果が並ぶだけ。
@OpenAIはGPT-5.4をリリースしたばかりで、その発表はほとんどこの表だけだ。
75%はOSWorld、57.7%はSWE-Bench Pro、94.4%はGPQA Diamond。
かっこいいけど、それが深夜2時に何かを作っている私にとって何を意味するのか?
AI Twitterの外の誰もがMMLUの2%の改善に興味を持っていない。誰もだ。ゼロ人。
一番面白い部分は?表をよく見てみて…
> Opus 4.6はほぼすべてのベンチマークで届きそうな範囲にいる。
> Gemini 3.1 Proは静かにBrowseCompで85.9%を叩き出し、皆を凌駕している。
どの行を見るかによって「勝者」が変わる。
実際に見たいのは何だと思う?
以前よりも扱える現実のタスクの中で、より雑多なものを見せてほしい。私の頭を少し壊すデモを見せてほしい。先月では不可能だった何かを作っている人を見たい。
一番良いベンチマークは「これで私の生活が楽になったか?」だ。
それだけだ。それが全ての評価だ。
企業は数学のスコアを祝っているが、ユーザーはただ、それがついに4Kラインのコードベースを壊さずに処理できるかどうかを知りたいだけだ。
そこか
原文表示