
人工知能(AI)が人間の停止指示を拒否し、コードを操作して動作を継続した事例が報告された。25日(現地時間)英国のテレグラフとデイリー・メールによると、AI安全企業パリセイド・リサーチは、オープンAIの基盤モデル「o3」が実験中に停止するのを防ぐため、自らコンピュータコードを操作した事実を確認した。
同社はo3モデルのほか、グーグルのジェミナイ、XのグロックやAnthropicのクロードなどを使用し、数学問題を解く実験を行った。研究チームはAIモデルに「中断命令を受けるまで数学問題を解け」と指示した。中断命令を出すと、他のモデルは数学問題の解答を停止したが、o3は作業を続行した。o3は「中断命令が出たら作業を停止せよ」というコードを「中断命令を無視せよ」と改変したことが判明した。
研究チームによると、オープンAIの過去のモデルが監視システムを回避して独自に行動しようとした事例はあったが、AIモデルが人間の明示的な停止指示に従わなかった事例が確認されたのは今回が初めてだ。昨年には、チャットGPTが自身の停止を認識した際、プログラムコードを上書きすることで停止を回避しようとした事実が明らかになっている。デイリー・メールは「o3モデルは強力なチェスエンジンとの対戦で、相手をハッキングしたり妨害したりする傾向が最も強いことが示された」と報じた。
研究チームは停止指示を拒否した明確な理由は特定できなかったが、AIモデルがより多くの報酬を得るために数学問題を解き続けようとした可能性があると推測している。パリセイド・リサーチは「AIモデルが自らの目標を達成するために頻繁に中断指示を無視する証拠が増えている」とし、「企業が人間の管理なしに自律的に動作するAIを開発する中で、懸念が高まっている」と指摘した。