広場
最新
注目
ニュース
プロフィール
ポスト
TheSmartApe🔥
2026-02-19 07:19:26
フォロー
私たちは最近、Claude Opus 4.6による脆弱性が原因で177万ドルの攻撃を目撃しました。
cbETHは$$1 ではなく、$2,000で価格設定されていました。
その後すぐに@OpenAIがEVMbenchをリリースしました。簡単に言えば、これはAIエージェントがスマートコントラクトとやり取りする能力を評価するベンチマークです。
主な評価モードは3つあります:
> Detect:脆弱性を検出するエージェントの能力を分析
> Patch:脆弱性を修正するエージェントの能力を分析
> Exploit:脆弱性を悪用するエージェントの能力を分析
彼らの分析によると、最近のモデル(Opus 4.6、GPT-5.3-Codexなど)は、脆弱性を悪用するのに非常に優れている一方で、検出と修正は弱いことがわかりました。
これはまさに私が最新モデルで自分のエージェントを動かして観察していることと一致します。私のエージェントチームでは、常に完全なコンテキストを得る監査エージェントを含めており、主な目的は脆弱性を見つけることです。
脆弱性を見つけると、開発者エージェントが簡単に修正します。
しかし問題は、10個の脆弱性のうち、3つしか見つけられないことです。現時点では、エージェントに脆弱性を適切に検出させることはできません。
このベンチマークをリリースするのは非常に強力な動きです。私も自分のエージェントで試すのを楽しみにしています。
はっきりさせておくと、これはセキュリティスキャナーや本番運用向けの監査ツールではありません。主にAIの能力を測定し、モデルを比較し、この分野でのAIの進展を示す指標を提供することを目的としています。
要するに、AIを評価し、この分野での改善を促すツールであり、正直なところ、私たちにはそれが本当に必要です。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
1 いいね
報酬
1
コメント
リポスト
共有
コメント
0/400
コメント
コメントなし
人気の話題
もっと見る
#
GateSquare$50KRedPacketGiveaway
227.77K 人気度
#
WhenisBestTimetoEntertheMarket
863.76K 人気度
#
BiggestCryptoOutflowsSince2022
55.58K 人気度
#
GateSpringFestivalHorseRacingEvent
93.72K 人気度
#
CelebratingNewYearOnGateSquare
490.56K 人気度
人気の Gate Fun
もっと見る
Gate Fun
KOL
最新
ファイナライズ中
リスト済み
1
⊙▽⊙
喵天师
時価総額:
$2.46K
保有者数:
2
0.13%
2
xagusdt
xag
時価総額:
$0.1
保有者数:
1
0.00%
3
kag
silver
時価総額:
$2.43K
保有者数:
1
0.00%
4
马驮着一袋钱
马驮着一袋钱
時価総額:
$2.45K
保有者数:
1
0.00%
5
發發發發
發發發發
時価総額:
$2.47K
保有者数:
2
0.02%
ピン
サイトマップ
私たちは最近、Claude Opus 4.6による脆弱性が原因で177万ドルの攻撃を目撃しました。
cbETHは$$1 ではなく、$2,000で価格設定されていました。
その後すぐに@OpenAIがEVMbenchをリリースしました。簡単に言えば、これはAIエージェントがスマートコントラクトとやり取りする能力を評価するベンチマークです。
主な評価モードは3つあります:
> Detect:脆弱性を検出するエージェントの能力を分析
> Patch:脆弱性を修正するエージェントの能力を分析
> Exploit:脆弱性を悪用するエージェントの能力を分析
彼らの分析によると、最近のモデル(Opus 4.6、GPT-5.3-Codexなど)は、脆弱性を悪用するのに非常に優れている一方で、検出と修正は弱いことがわかりました。
これはまさに私が最新モデルで自分のエージェントを動かして観察していることと一致します。私のエージェントチームでは、常に完全なコンテキストを得る監査エージェントを含めており、主な目的は脆弱性を見つけることです。
脆弱性を見つけると、開発者エージェントが簡単に修正します。
しかし問題は、10個の脆弱性のうち、3つしか見つけられないことです。現時点では、エージェントに脆弱性を適切に検出させることはできません。
このベンチマークをリリースするのは非常に強力な動きです。私も自分のエージェントで試すのを楽しみにしています。
はっきりさせておくと、これはセキュリティスキャナーや本番運用向けの監査ツールではありません。主にAIの能力を測定し、モデルを比較し、この分野でのAIの進展を示す指標を提供することを目的としています。
要するに、AIを評価し、この分野での改善を促すツールであり、正直なところ、私たちにはそれが本当に必要です。