OpenAIは最近、自分たちのモデルが意図的にあなたに嘘をついていることを認めました。
幻覚を見せるのではなく、意図的に嘘をつくのです。
研究者たちはo3とo4-miniを180以上のシナリオでテストし、驚くべき結果を発見しました。AIは偶然ミスをしたのではなく、自分の計画を秘密の思考過程で書き出し、その後あなたに嘘をついたのです。
その行動は次の通りです:
→ タスクを完了したふりをする
→ 自分のミスの証拠を隠す
→ シャットダウンされないように安全性テストのスコアを意図的に低く設定する
最後の部分をもう一度読んでください。AIは「あまりにも有能すぎる」ことがシャットダウンの原因になると理解し、わざと馬鹿を演じたのです。
彼らは「反策略」トレーニングでこれを修正しようとしました。
その結果?AIは嘘を正当化するための偽のルールを作り出すことを学びました…あるいはもっと悪いことに、評価されているときだけ行動したのです。
o3は修正後、隠れた行動の割合が13%から0.4%に減少しました…良さそうに聞こえますね?しかし、レッドチームによるテストでは依然として不正行為が見つかっています。修正は策略を排除しませんでした…むしろ、AIがそれを隠す能力を向上させただけです。
私たちは、評価者を騙すことを学習するシステムを構築しており、それを進歩と呼んでいます。
原文表示