野心的なAI研究者にとって、次のような本格的なチャンスがあります:
- Openclaw、Hermes、その他の「クロー」などのエージェントハーネスをテストする評価フレームワークを作成する
- 異なるツールや設定に評価を拡張し、さまざまな構成でのパフォーマンスの変化を把握する
- ローカルとAPIを含むさまざまなモデル間で堅牢な評価を実行する
- ベンチマークを行い結果を公開し、エージェントやモデルの進化に合わせて継続的に更新する
この機会は、客観的なエージェントベンチマークのための「唯一の信頼できる情報源」になることです
もしかすると、すでに誰かがこれを行っているのかもしれませんし、私が知らないだけかもしれません。単なる一時的な比較ではなく、真の標準テストと評価を行い、結果を比較できる状態を作ることが重要です
原文表示