アリエンジニアがClaudeコードソースコードをリバースエンジニアリング:Auto Modeの4層決定パイプラインとセキュリティ分類器メカニズムが露出

robot
概要作成中

币界网の報告によると、1M AI Newsの監視のもと、蚂蚁集团のエンジニアであり、フロントエンドフレームワークUmi.jsの作者である陳成は、Claude Code 2.1.81のソースコードをリバースエンジニアリングし、auto modeを押したときに何が起こるかを完全に再現しました。主要な発見は、ツールの呼び出しごとに4層の意思決定パイプラインを通過し、最初の3層で判断できない場合にのみ、独立したAI分類器を呼び出して安全性を審査するということです。4層のパイプラインは順に、1層目は既存の権限ルールをチェックし、ヒットすれば直接許可、2層目はacceptEditsモード(ファイル編集許可レベル)を模擬し、そのモードで通過すればリスクが低いと判断し、分類器をスキップ、3層目は読み取り専用ツールのホワイトリスト(Read、Grep、Glob、LSP、WebSearchなど)をチェックし、これらは状態を変更しないため無条件で許可します。これらの条件を満たさない場合にのみ、4層目に進み、Claude Sonnetに安全分類のためのAPIリクエストを送ります。分類器のいくつかの重要な設計詳細は、コストと遅延のバランスを考慮し、常にSonnetを使用し、Opusは使用しないこと、temperatureを0に設定して出力の決定性を確保すること、「自主AIプログラミングエージェントの安全監視員」として定義され、プロンプトインジェクション、範囲の拡散、偶発的な損害の3つのリスクを保護すること、ユーザーのCLAUDE.md設定ファイルは分類器のコンテキストに注入され、ユーザーの意図判断の基準となることです。ブロックルールは22以上のカテゴリをカバーし、force push、mainブランチへの直推、外部コードのダウンロードと実行、デプロイ、データ漏洩、自身の権限の変更、リモートコード実行の作成、資格情報の漏洩などが含まれます。許可例外は7種類あり、テスト用のハードコーディングされたキー、作業ディレクトリ内のローカルファイル操作、読み取り専用のGETリクエスト、宣言済み依存関係のインストール、公式ツールチェーンのインストール、設定資格情報の取得と送信、現在の作業ブランチへのプッシュです。また、連続3回拒否または合計20回拒否された場合にシステムを手動確認にダウングレードするファイアウォール機構や、ヘッドレスモードではエージェントを直接停止する仕組みもあります。分類器が利用できない場合は、フラグによって「fail-closed」(直接拒否)または「fail-open」(手動確認にダウングレード)に制御されます。auto modeにおける行動促進のためのプロンプトインジェクションも、頻度制御が細かく設定されており、5ターンごとに一度注入され、その周期内の最初の注入は約800字の完全版(「即時実行」「中断の削減」「行動優先」など六つの指示を含む)で、それ以外の4回は簡潔版が1行ずつ挿入され、コンテキストウィンドウの占有と行動の安定性のバランスを取っています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン