2026-02-19 07:19:26

私たちは最近、Claude Opus 4.6による脆弱性が原因で177万ドルの攻撃を目撃しました。

cbETHは$$1 ではなく、$2,000で価格設定されていました。
その後すぐに@OpenAIがEVMbenchをリリースしました。簡単に言えば、これはAIエージェントがスマートコントラクトとやり取りする能力を評価するベンチマークです。

主な評価モードは3つあります：
> Detect：脆弱性を検出するエージェントの能力を分析
> Patch：脆弱性を修正するエージェントの能力を分析
> Exploit：脆弱性を悪用するエージェントの能力を分析
彼らの分析によると、最近のモデル(Opus 4.6、GPT-5.3-Codexなど)は、脆弱性を悪用するのに非常に優れている一方で、検出と修正は弱いことがわかりました。
これはまさに私が最新モデルで自分のエージェントを動かして観察していることと一致します。私のエージェントチームでは、常に完全なコンテキストを得る監査エージェントを含めており、主な目的は脆弱性を見つけることです。
脆弱性を見つけると、開発者エージェントが簡単に修正します。
しかし問題は、10個の脆弱性のうち、3つしか見つけられないことです。現時点では、エージェントに脆弱性を適切に検出させることはできません。
このベンチマークをリリースするのは非常に強力な動きです。私も自分のエージェントで試すのを楽しみにしています。
はっきりさせておくと、これはセキュリティスキャナーや本番運用向けの監査ツールではありません。主にAIの能力を測定し、モデルを比較し、この分野でのAIの進展を示す指標を提供することを目的としています。
要するに、AIを評価し、この分野での改善を促すツールであり、正直なところ、私たちにはそれが本当に必要です。

原文表示