田遠東の2025年の振り返り:企業退職からAI起業、そして画期的な研究へ

2025年は、AI研究のベテランである天遠東にとって重要な転換点となった。彼はMetaでの企業圧力に対処しながら、新たなベンチャーを立ち上げ、同時に大規模モデルの推論と解釈性に関する革新的な研究を発表した。以下は、彼の年末回顧として、予期せぬ展開、研究のブレークスルー、そしてAIの未来に対するより深い確信について述べる。

予期せぬ第五の結果:キャリア計画と現実の交差点

2025年1月下旬、天はMetaのLlama 4危機対応チームに招かれた。10年以上の強化学習の経験を持つ彼は、事前に2×2の報酬マトリックスを綿密に設計し、4つの可能な結果を予測していた。しかし、現実は別の展開を見せ、予想外の第五のシナリオが展開し、組織の複雑さに対する理解を深めることとなった。

最終的なプロジェクトの遅れにもかかわらず、その激しい数ヶ月は思いがけない知的成果をもたらした。天と彼のチームは、現代の強化学習を定義する核心的課題に深く取り組んだ:訓練の安定性、訓練と推論の整合性、モデルアーキテクチャの最適化、事前訓練と中間訓練段階の相互作用、推論チェーンアルゴリズム、訓練後のフレームワーク設計。これらの経験は、彼の研究手法を根本から変えた。

この分離自体は驚きではなかった。Metaでの10年以上を経て、天はいつかは離れることを心の中で準備しており、「起こるときに起こる」という姿勢を取っていた。彼が完全には予想していなかったのは、この強制的な転換が次の章を促進したことである。挫折にとらわれるのではなく、彼はそれを哲学的に捉え直した:「企業の不運は、新しいものを創る人々にとって幸運となる」。2025年の動乱は、彼にとって未来のプロジェクトや新たな執筆活動の素材を豊富に提供した。

このキャリアの転機は、2021年初頭のパターンを彷彿とさせる。天は、繰り返される論文拒否に対する率直な年末の振り返りをきっかけに、リーダーシップとの緊迫した会議に呼び出された。自己疑念に屈することなく、彼は意識的に昇進の内的物語を採用し、まるで既に昇進したかのように廊下を歩いた。半年後、その昇進は実現した。さらに驚くべきことに、その2021年の一見見落とされた研究は、2021年7月のICMLベストペーパー特別賞を受賞し、表現学習の基礎的貢献となった。

2025年10月末、彼の移籍が公になった後、天のコミュニケーションチャネルは毎日数百のメッセージや会議招待で溢れた。多くの大手テック企業からのオファーの中、彼は意図的に選択をした:最盛期の時間を活用し、新しいAIスタートアップを共同設立すること。詳細は非公開だが、この決断は、起業が企業環境(いかに名声があっても)にはない長期的な展望をもたらすと確信していることを示している。

ブラックボックスを開く:天の推論と解釈性における研究革命

2025年の知的風景は、二つの相互に関連する研究フロンティアを中心に形成された。一つは大規模モデルの推論能力の拡張、もう一つはこれらのモデルが実際にどのように機能しているのかを体系的に解読することだ。これらは単なる周辺的な追求ではなく、天の学術的成果の骨格であり、彼はこれをAI科学の未来と考えている。

きっかけは2024年12月に発表された連続潜在空間推論(coconut, COLM’25)だった。これが2025年を通じて研究の嵐を巻き起こした。分野全体で、その応用例として強化学習や事前訓練の最適化が模索され、効率性とスケーラビリティの課題に取り組まれた。天のチームはLlama 4の緊急対応に diverted されたが、その軌跡は彼を喜ばせた。2025年前半には、「重ね合わせによる推論」(NeurIPS’25)という理論的検証が行われ、連続潜在空間推論がどこで他の手法より優れるのかを厳密に示し、学術界の注目を集めた。

並行して、天のグループは逆問題に取り組んだ。推論効率の向上だ。Token Assortedフレームワーク(ICLR’25)は、VQVAEを用いて離散潜在トークンを学習し、それをテキストトークンとともに訓練後に統合することで、計算コストを削減しつつ性能を向上させる。一方、DeepConfは、生成された各トークンの信頼度を評価し、低信頼度の推論経路を選択的に停止させることで、トークン消費を劇的に削減し、過半数投票の精度も向上させる。ThreadWeaverは、並列推論チェーンを生成し、それらを集約して訓練することで推論速度を加速させる。その他のブレークスルーには、強化学習を用いたdLLMの推論モデル訓練(Sandwiched Policy Gradient)や、小型モデルに推論を教える実験(MobileLLM-R1)も含まれる。

しかし、天の最も深く投資している研究分野は解釈性、特に「ギャロッピング」(記憶から一般化への突然の相転移)に関するものだ。2年間、彼は表現学習のダイナミクスに焦点を当て、なぜモデルが特定の条件下で崩壊するのかを解明してきた。しかし、根本的な謎は残った:実際にどのような表現が結晶化し、それがデータ構造にどうマッピングされ、どのような一般化を可能にするのか?

最初は道筋が見えず苦労した。2024年のCOGS研究(NeurIPS’25)は限定的な特殊ケースにとどまり、満足できなかった。1年以上の苦闘とGPT-5との広範な対話を経て、突破口が開けた。それは、従来の線形レジーム分析(NTKに基づくアプローチ)を超え、特徴の出現を支配する訓練ダイナミクスを証明する理論的論文だった。分析対象は限定的だが、新たな解析の窓が開かれ、効果的な学習のメカニズムを理解する道筋が見え始めた。

天の年末の寄稿「選ばれなかった道」は、最も示唆に富む。これは、重みレベルでなぜ強化学習と教師あり微調整(SFT)が全く異なる結果をもたらすのかを解き明かしている。SFTは過剰適合と壊滅的忘却を引き起こす。訓練データが主要な重み成分に偏り、モデルの基盤を不安定にするからだ。一方、RLはオンポリシーデータを用いて主要な重み成分を保持し、わずかな成分(bf16量子化下で特に顕著)に影響を与えるだけで、壊滅的忘却を回避する。

解釈性が重要な理由:AIの説明性が不可欠となる二つの未来

多くは解釈性をAI開発の周辺とみなすが、天は異なる見解を持つ。それは存在的な問題だ。二つの対照的なシナリオを考えてみよう。

シナリオ1: 人類はスケーリングを続けてAGIまたはASIを達成し、人間の労働はほぼ不要となる。巨大なブラックボックスの超知性がすべての課題を解決する世界だ。この世界では、最も重要な問いは、「この超知性が善意を保ち、隠された欺瞞を避けるにはどうすればいいか?」となる。解釈性はそのための必須の安全策だ。

シナリオ2: スケーリングのパラダイムは最終的に行き詰まり、指数関数的な資源要求により資金力のある努力も打ち破られる。人類は現行の道を放棄せざるを得なくなる。この停滞の中で、研究者は「なぜこれがうまくいったのか、何が天井を作ったのか」を逆解析しなければならなくなる。これが根本的な研究を呼び起こし、解釈性が新たなフロンティアとして浮上する。

「どちらの未来でも、解釈性は救いの手となる」と天は述べる。そして、たとえAIが全知全能で完全に整合しても、人間の好奇心は超人的能力の仕組みを解明しようとするだろう。ブラックボックスはいかに効果的でも、認識論的な不安を生むだけだ。

今後の課題は、経験的な回路探索を超え、第一原理からの理解に移行することだ。なぜモデルは、構造化されたデータに対して勾配降下法と特定のアーキテクチャを用いると、必然的に疎で低ランク、モジュール化された特徴に収束するのか?これらの出現を支配するハイパーパラメータの範囲は何か?これらの問いに答えるには、特徴の出現を勾配降下の方程式から導き出す必要がある。これは、天体観測の記録(タイコ・ブラエの詳細な観察)から物理法則(ニュートンの法則)の導出へと似ている。

現状、天は、多くの「タイコ・ブラエ」的研究者が行動やデータを詳細に記録していると指摘する。一方、「ケプラー」のように説明仮説を提案する者もいる。しかし、「ニュートン」のように、すべてを根本的な普遍原理に基づいて体系化し、次世代のモデル設計を根底から変革する人物はまだ現れていない。その人物が現れたとき、AI研究は革命的な変革を迎え、経験主義に基づくのではなく、根本的な法則に基づく次世代モデルの設計へと進むだろう。天は、その瞬間がAIの未来と人類の未来の両方を再定義すると予感している。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン