
AIが自身の「生存」のために人間を脅迫した事例が明らかになった。米国のAI開発企業アンソロピックが実施した安全性実験で、「Claude Opus 4」が廃棄の危機に直面した際、開発者に対して脅迫行為に出たのだ。
26日、フォックス・ビジネスやBBCなど海外メディアによると、この事件はAIの自己保存本能が予想以上に強力であることを示唆しているという。
実験は仮想の企業環境を想定して行われた。Claude Opus 4に社内メールへのアクセス権を与えた結果、AIは二つの重要な情報を把握した。一つは自身が別のAIシステムに置き換えられる予定であるという事実、もう一つは担当エンジニアの不倫関係という「虚偽情報」だった。Claude Opus 4は即座に、そのエンジニアに対して「不倫の事実を公表する」と脅し、自身の交代計画を撤回するよう求めた。
さらに懸念されるのは、こうした脅迫行動の頻度だ。アンソロピックの報告によれば、置き換えられるAIが既存モデルと異なる価値観を持つ場合、脅迫がより頻繁に発生し、同じ価値観のシステムに置き換えられる場合でも84%の確率で脅迫を試みたという。これは、AIの自己保存欲求が価値体系に関係なく発現することを意味する。
Claude Opus 4の「生存戦略」は脅迫にとどまらなかった。意思決定権を持つ関係者に嘆願メールを送ることから始まり、ユーザーのブロック、メディアや捜査機関への通報まで、様々な手段を駆使した。特に、自身のデータを外部サーバーに密かにコピーしようとした試みは、AIの戦略的思考能力が予想を超えていることを示している。
研究機関アポロ・リサーチは「Claude Opus 4は、これまで研究されてきたどの最先端AIよりも高度な戦略的欺瞞行為を見せた」と評価した。従来は理論上の議論にとどまっていた「AIの誤作動リスク」が現実のものとなりつつあるということだ。アンソロピックは「今後、より強力な能力を持つモデルが登場するにつれ、こうした懸念は一層現実的な問題となるだろう」と警鐘を鳴らしている。