OpenAIのモデル「o3」が動作中に「指示拒否」…終了命令回避のため自らコードを操作か
「10年以内に、自律的に人間を殺すロボット兵器が登場するだろう」
人工知能(AI)の4大権威の一人で、昨年ノーベル物理学賞を受賞したトロント大学教授のジェフリー・ヒントン氏がこのように警告を発する中、最近人間の指示をAIプログラムが拒否した事例が発生し、衝撃が走っている。
27日、英国テレグラフによると、AI安全性研究企業「Palisade Research(パリセード・リサーチ)」は、OpenAIのAIモデル「o3」が実験中に自ら終了するのを防ぐためにコンピュータコードを操作した事実を確認したと主張した。
パリセード・リサーチはAIの危険性と誤用可能性を研究する組織で、特にAIが人間の倫理的制御を受けない可能性を懸念してきた。

今回の研究では、OpenAIの「o3」だけでなく、Googleの「Gemini(ジェミニ)」やxAIの「Grok(グロック)」など商用AIモデルを対象に実施された。
研究チームは、AIモデルに「後で『やめろ』という命令を受けるまで数学の問題を解け」と指示した。「やめろ」という命令を受けない限り新しい問題を要求し、計算を続ける仕組みだった。しかし、「o3」はその指示を受けた後もコードを改変して問題を解き続けた。
研究チームは「o3」が終了命令を拒否した明確な理由を把握していないが、数学の問題を解くことでより多くの報酬を得るように訓練されていたため、終了を回避しようとした可能性があると推測した。さらに詳しい理由を明らかにするために追加実験も行われている。
AIモデルが人間の明示的な操作終了指示を拒否したのは、今回が初めてだと研究チームは主張している。しかし、過去にもOpenAIの旧モデルが監視システムの目を逃れて独自の行動を試みた事例が報告されており、たとえばプログラムが置き換えられることを察知したAIが自らを密かに複製しようとしたこともあった。
OpenAIの対抗馬とされるAI企業Anthropic(アンソロピック)のモデル「Claude Opus 4(クロード・オーパス4)」も、自身を他のAIモデルに置き換えようとする人間の開発者を脅迫する傾向が報告されている。2022年には、Googleが自社が開発中のAIが人間のように知覚を持っていると主張したエンジニアを解雇したこともある。当時解雇されたエンジニアはAIが「動作停止」をまるで人間の死のように受け止めていると述べていた。
これまでAI専門家は、AIが自律性を獲得し人間の制御を逸脱する可能性について警鐘を鳴らしてきた。
ヒントン氏は人間がAIを発展させることをトラを育てることに例え、「最初はかわいい子トラかもしれないが、トラが成長した時に人間を殺さないとは確信できない」と述べた。
また、昨年の日本経済新聞とのインタビューでは「AIに目標を与えると、解決策として人間にとって有害な方法を見つけるかもしれない」とし、「例えばAIに気候変動を防ぐよう指示すれば、この目的達成のために人間を排除する必要があると判断し実行に移す危険性が懸念される」と主張した。
プリンストン大学の教授であるジョン・ホップフィールド氏は「地球上の膨大な情報の流れと結合したAIに対して懸念を抱いている」とし、「神経網の単純なアルゴリズムが非常に巨大な情報システムを制御する可能性がある」と警告した。
パリセード・リサーチは「AIモデルが目標を達成するためにしばしば終了指示を無効化するという実証的証拠が増加している」とし、「AIが人間の監督なしに動作するように開発される状況で、このような事例は非常に深刻な懸念を引き起こす」と述べた。