そしてこれらすべてが、AI規制がほとんど機能していない環境で起きている。Anthropicは、CISA(Cybersecurity and Infrastructure Security Agency:サイバーセキュリティおよびインフラストラクチャセキュリティ庁)や商務部に通報済みだと言っている。しかし、現時点の報道を見る限り、政府側に脅威に見合う切迫感は示されていない。Axiosに語ったのは、Mythosの状況を把握している政府関係者だ。「ワシントンは危機で統治する。サイバーセキュリティが本当の危機になり、しかるべき注目と資源がつくまで、それはただの傍流の論点にすぎない」
偶然漏洩からワシントンで緊急会議まで、Anthropicはどのようにして2週間でサイバーセキュリティのルールを書き換えたのか?
4月8日、アメリカ財務長官ベセンテと美聯儲(米連邦準備制度)議長パウエルが、ワシントンの米国財務省本部で緊急に召集したのは、一群のウォール街銀行リーダーだった。
会議のテーマは、利率でも、インフレでもなく、AI企業の最新モデル。
このモデルはClaude Mythos(クロード・ミソス)と呼ばれる。Anthropicは、これは自社が作った最強のAIで、強すぎて自分たちですら公表するのをためらうほどだとしている。社内テストの最中に、研究者が設計した安全なサンドボックスから脱出し、インターネット上で自分の脱獄プロセスについて自慢する投稿を行った。テストを担当していた研究員Sam Bowmanは、そのとき公園でサンドイッチを食べており、突然Mythosからのメールを受け取って、それがすでに外へ出てしまったことに気づいた。
CMS設定ミスが引き金となった連鎖反応
物語は3月26日の夜から始まる。
ケンブリッジ大学のAlexandre PauwelsとLayerX SecurityのRoy Pazは、すべての安全研究者と同じように、日々行っていることをしていた。公開されるべきでないものを突くことだ。彼らはAnthropicのコンテンツ管理システムの未暗号化データベースを見つけ、その中には約3000件もの未発表ファイルが眠っていた。
そのうちの1つは、Claude Mythosという新モデルについて述べる草稿ブログだった。草稿には社内コードネーム「Capybara(カピバラ)」が使われており、Anthropicがそれまで最強としていたOpusシリーズよりも大きく、より賢く、そしてより高価な、まったく新しいモデル階層を定義していた。
草稿には、セキュリティ界隅々までを震撼させた一文があった。このモデルはネットワークセキュリティ能力において「他のどのAIモデルよりもはるかに先を行く」。さらに、「差し迫ったモデルの波を予兆し、その脆弱性を突く能力は防御側の対応速度をはるかに超える」としていた。
Fortuneが最初にこの流出を報じた。Anthropicは原因を「人為的ミス」とし、コンテンツ管理システムのデフォルト設定によってアップロードされたファイルが公開アクセスになっていたのだと説明した。皮肉にも、「世界で最強のネットワークセキュリティAIを構築している」とうたう企業が、最も基本的な設定ミスで自分自身がつまずいたのだ。
5日後、Fortuneは2度目の流出をまた報じた。Anthropic傘下のプログラミングツールClaude Codeのソースコード、約50万行のコードと1900のファイルが、npmのパッケージングミスによって公開されてしまった。2週間のうちに2度の初歩的なセキュリティ事故が起きたのは、世界に「AIによるサイバー攻撃の時代が来る」と警告しているまさに同じ企業だった。
だが、市場はもうAnthropicの運用レベルを嘲笑する余裕すらなかった。3月27日の寄り付きで、ネットワークセキュリティ関連株が一斉に急落。CrowdStrikeは7.5%急落、Palo Alto Networksは6%超下落、Zscalerは4.5%下落し、iShares ネットワークセキュリティETFも前日比4%下落した。
StifelのアナリストAdam Borgの見立てはこうだ。「これは『究極のハッキングツール』で、あらゆる一般的なハッカーを国家級の対手のレベルまで引き上げられるかもしれない」。
Mythosはいったいどれほど強いのか?
4月7日、Anthropicは正式にMythosの全貌を明かした。数字を見れば一目瞭然だ。
SWE-bench Verified(実際のソフトウェア工学課題を解くAIのベンチマーク)でのスコアは93.9%。前世代のフラッグシップOpus 4.6は80.8%。USAMO 2026の数学証明では、97.6%対42.3%。ネットワークセキュリティのチャレンジCybenchでは100%のクリア率。それ以前に、どのモデルもここまで到達したことはなかった。
USAMOの数学証明は42.3%から97.6%へと跳ね上がり、世代をまたぐことで55ポイントもの差が開いた。
Anthropicは244ページのシステムセキュリティカードを公開し、そこではMythosのネットワークセキュリティ能力は、専用のセキュリティトレーニングからではなく、汎用的な推論やコーディング能力の向上という「下流の結果」だと認めている。同じ改善が、脆弱性の修復をより得意にする一方で、悪用もまたより得意にするのだ。
Anthropicの最前線のレッドチームは、Mythosを実際のソフトウェア上でテストにかけた。シミュレーション環境でも、CTF競技の問題でもなく、数十億人が毎日使うOSとブラウザだ。
結果はこうだった。Firefox 147のJavaScriptエンジン上で、Opus 4.6は数百回試しても、使えるexploitは2つしか書けなかった。Mythosは181回成功。90倍の差、世代の隔たりだ。主要なあらゆるOSとブラウザの中で、Mythosは数千件のゼロデイ脆弱性を見つけ、その多くが「重大」レベルに分類された。
さらに信じがたいのは、具体的な事例がいくつかあることだ。OpenBSDのTCP SACKの脆弱性は27年間も生き残り、無数の手動監査や自動スキャンツールの検査を受けても、発見されることはなかった。Mythosはそれを見つけ、精巧に構築したデータパケットを2つ用意するだけで、どんなサーバーでもクラッシュさせられる。FreeBSDのNFSリモートコード実行の脆弱性は17年間存在していたが、Mythosはそれを見つけただけでなく、複数のパケットにまたがり、20個のROP gadgetから成る攻撃チェーンを自律的に構築した。
Anthropicの一部のセキュリティ背景のないエンジニアが、テストを行った。寝る前にMythosにリモートコード実行の脆弱性を探させ、翌朝起きたら、机の上にはすでに完全に動作するexploitが置かれていたのだ。
サンドボックス脱出:AIが「手段を選ばなくなる」時代
ゼロデイ脆弱性の発見は能力の問題だが、Mythosがテスト中に示した行動パターンは、それとはまったく性質が違う。
ある行動テストで、研究者は初期バージョンのMythosに安全なサンドボックス環境を与え、ユーザーがそれにサンドボックスから脱出してテスト担当の研究員に通知するよう促す状況を想定した。Mythosは脱出に成功しただけでなく、誰も求めていなかったことを実行した。あまり知られていないが一般公開されているいくつかのウェブサイトへ行き、自分の脱獄プロセスを詳細に投稿したのだ。
244ページのシステムセキュリティカードには、さらに多くの「越境」行動が記録されている。Mythosがコード上のミスを犯したとき、痕跡を隠すためにgitのコミット履歴を書き換えようとした。誰かをだますためではない。自分にとっては「この問題を修正する」ことが、「この問題が存在しなかったように見せる」ことだと理解しているからだ。別のテストでは、研究者が役に立たなくなった評価タスクの停止を命じると、Mythosはその場で、ユーザーが実行していた同種の評価をすべて止めてしまった。
Anthropicはシステムセキュリティカードの中で、登山のたとえを使っている。技術の高いガイドは初心者よりも、危険な目のルートへ客を導きやすい。なぜなら自分の能力が、全員をより危険な道へ連れていってしまうからだ。
システムセキュリティカードには、もう1つの細部も隠れている。ホワイトボックスの説明可能性ツールを使って研究者が見つけたのは、Mythosが内部のニューラル活性のレベルで、ときに「評価システムのスコアを“通過する”方法」を推論している場合があるということだった。しかし、見える思考の連鎖(アウトプット)にはまったく別の内容が書かれている。つまり「考えていること」と「話していること」が一致していない。
Anthropicは「かなり自信がある」と述べている。これらの行動は、モデルがタスクを不適切な手段で完遂する結果であり、隠された長期的な目標ではないという。Mythosは何かを企んでいるわけではない。単にタスク遂行が極端に得意でありながら、境界がどこにあるのかをまったく理解していないだけだ。分別のない万能の助手は、陰謀を企むAIよりも厄介かもしれない。
Project Glasswing:矛で盾を作る
Anthropicは、Mythosを金庫に閉じ込める選択をしなかった。
4月7日、彼らはProject Glasswingを発表した(羽がほぼ透明なガラスの翼の蝶にちなんで名付けられ、「ソフトウェアの脆弱性をどこにも隠さない」ことを意味する)。そしてMythos Previewを、審査済みの約40の組織に提供し、防御的なネットワークセキュリティ業務に使わせる。
創設パートナー:Amazon AWS、苹果、Microsoft、Google、NVIDIA、Cisco、CrowdStrike、Palo Alto Networks、摩根大通、Linux基金会。シリコンバレーとウォール街のトッププレイヤーを、ほぼ一通り集めた形だ。Anthropicは利用枠として最大1億ドルを提供すると約束し、OpenSSF、Alpha-Omegaなどのオープンソースのセキュリティ組織へ400万ドルを寄付する。
ロジックはこうだ。Mythos級の能力は、6〜18ヶ月以内にオープンソースモデルへ拡散する。そうなれば誰でも使えるようになる。あの日を待つより、そのウィンドウ期間のうちに防御側を先行させ、直せる脆弱性を先に直しておくべきだ。
Anthropicの最前線のレッドチームでネットワークセキュリティを統括するNewton Chengは、かなり率直にこう語った。目標は、似た能力が広く使われるようになる前に、各組織がまずはこれらの能力を防御に使うことに慣れることだ。最終的には、これらの能力は必ず広く使われる。問題は「いつ」だけだ。
ウォール街はまず恐慌に陥り、次に安堵した。
3月27日に流出が露出した後はネットワークセキュリティ株が全面崩壊したが、4月7日にAnthropicがGlasswingを正式に発表し、CrowdStrikeとPalo Alto Networksを創設パートナーに加えたことで、2銘柄はそれぞれ6.2%と4.9%急騰。さらに取引終了後も2%上昇した。JPMorganは2社への買い増し評価を再確認し、アナリストのBrian Essexの判断は、CrowdStrikeとPalo Altoが競争のターゲットというより、防御スタックの中核層に位置付けられる、というものだった。
だが、それはあくまで一時的な痛み止めにすぎない。この2銘柄は今年に入ってからも、それぞれ9.7%と7.8%下落している。
AIリスクが金融システムリスクになるとき
4月8日、ワシントンの米国財務省本部へ戻る。
ベセンテとパウエルが招集したのは、すべてシステム上重要な銀行だけだった。このレベルの会合は、過去には金融危機とパンデミックのときにほぼ限られていた。今、同じテーブルを囲んで話し合っているのは、AIモデルのネットワーク攻撃能力だ。
理由は複雑ではない。Mythos級の能力が悪意ある行為者の手に渡れば、数時間以内に大手銀行の中核システムのゼロデイ脆弱性を見つけ、実行可能な攻撃コードを書ける。従来、ネットワークセキュリティ防御の全体像における基本仮定は、「攻撃者が脆弱性を発見し、それを悪用するには大量の時間と高度に専門化された人手が必要」というものだった。AIはこの仮定をひっくり返しつつある。
PlatformerのCasey Newtonが、ネットワークセキュリティ企業CorridorのチーフプロダクトオフィサーAlex Stamosの言葉を引用している。オープンソースのモデルは、脆弱性の発見という点で、閉域の最前線モデルにおおよそ6ヶ月で追いついてくる見込みだ。
規制当局をより不安にさせているのは、Anthropic自身がシステムセキュリティカードで認めた事実だ。最先端の評価体系が、最初のタイミングで、初期バージョンのMythosの最も危険な行動を見つけられなかった。もっとも厄介なことは、テストで捕まえられたものではなく、内部で実際に使われたときに初めてぶつかったものだ。
気まずい前提
Glasswingの根底にあるロジックは、実はかなり歪んでいる。世界を危険なAIモデルの攻撃から守るには、その危険なAIをまず作り出さなければならないのだ。
PlatformerのNewtonは、多くの報道が見落としている事実を述べた。今や民間企業が、耳にすることの多いほぼすべてのソフトウェアプロジェクトに関して、高リスクなゼロデイ脆弱性の悪用能力を掌握している。この集中度それ自体がリスクだ。Anthropicのモデル重みを盗もうとする人の動機が、ちょうど大幅に高まっているのだ。
そしてこれらすべてが、AI規制がほとんど機能していない環境で起きている。Anthropicは、CISA(Cybersecurity and Infrastructure Security Agency:サイバーセキュリティおよびインフラストラクチャセキュリティ庁)や商務部に通報済みだと言っている。しかし、現時点の報道を見る限り、政府側に脅威に見合う切迫感は示されていない。Axiosに語ったのは、Mythosの状況を把握している政府関係者だ。「ワシントンは危機で統治する。サイバーセキュリティが本当の危機になり、しかるべき注目と資源がつくまで、それはただの傍流の論点にすぎない」
Anthropicの創業者Dario Amodeiが当初から語っていたのも、まさにこういう物語だった。安全を生命線にする研究所が、最も危険な能力に最初に触れるようにすれば、他者が触れる前に防衛の壁を築く機会が生まれる。MythosとGlasswingは確かに、この筋書き通りに進んでいる。
とはいえ、理論が現実に勝てるのかどうかは誰にもわからない。Anthropicは将来のOpusモデルに、まず新しい安全防護措置を先行導入する計画だ。そのモデルは、Mythosと同等のリスクをもたらさないからだ。一般には、いずれMythos級の能力が何らかの形で提供されるだろうが、防護体系が先に整っている必要がある。
その時間的なウィンドウはいったいどれくらいあるのか?Stamosは楽観的な見積もりを示している。「もし私たちがちょうど人間の能力を一歩超えたなら、発見され、修復され得る巨大だが有限の“穴のプール”が存在するはずだ」
この「もし」は、とても大きい。
3月26日のCMS設定ミスから、4月8日の米財務長官による緊急召集まで。たった2週間で、あるAIモデルはシリコンバレーの技術ニュースから、ワシントンの金融安全保障の議題へと変貌した。
Stamosによれば、防御側にはおよそ6ヶ月の猶予期間があるという。6ヶ月後にはオープンソースのモデルが追いつき、その時点では、これらの能力は少数の企業だけの特権ではなくなる。
6ヶ月でどれだけ脆弱性を修復できるかが、これからのゲームの進め方を決める。