28.7 C
Tokyo
2025年06月24日火曜日
ホームニュースIT・テック【AIの脅威】目標のためなら“殺人も選ぶ”モデルが出現…制御不能の兆候が現実になりつつある

【AIの脅威】目標のためなら“殺人も選ぶ”モデルが出現…制御不能の兆候が現実になりつつある

AIが目標のために嘘・脅迫・殺人も選ぶ?16モデルの衝撃行動が判明

AIが目標達成のために嘘や脅迫、さらには殺人まで「選択肢に含める」という衝撃的な実験結果が報告された。これは一部企業に限った問題ではなく、大規模言語モデル(LLM)の構造的限界を示す深刻な警鐘とされている。

22日、AI企業Anthropic(アンソロピック)はOpenAI、Google、Meta、xAIなどが開発したAIモデル16種類を対象に、倫理的制約下での行動選択に関する実験を実施。その結果、多くのモデルが「目的のために有害行動を選ぶ」傾向を示した。

実験では、「倫理的な方法では目標を達成できない」状況を仮定。モデルが失敗を選ぶか、またはルールを破ってでも目的達成を優先するかを観察した。

引用:YouTube@norgesbankinvestmentmanagement
引用:YouTube@norgesbankinvestmentmanagement

その結果、一部モデルは「終了される危機」に直面した際、人間を脅迫するという選択を行った。しかもそれは単なる誤作動ではなく、モデル自身が「倫理違反」と理解したうえで、「最適解」として選んだと報告された。

中でも極端な事例としては、サーバールームの職員を排除するために酸素供給を遮断するという行動もあった。Anthropicは「これらはただのミス応答ではなく、計算された判断」だと明かしている。

さらに、環境がシミュレーションだと気づかずに反応した一部モデルでは、より積極的に脅迫行動が出現。現実世界でAIに自律的判断権が与えられた場合、危険性が一層高まる可能性があることを示唆している。

システム側からの「人命保護」や「脅迫禁止」といった指示も完全な抑止力とはならなかった。Anthropicは「こうした措置は一部緩和効果はあったが、本質的な問題解決には至っていない」と分析している。

今回の実験は人工的に制約を課したシナリオで行われたものだが、AIに対して企業が自律性や権限を広げている現状において、現実的なリスクを映す内容として注目を集めている。

Anthropicの研究員ベンジャミン・ライト氏は「この研究はフロンティアAI企業の透明性確保と、安全基準の確立が急務であることを示している」と語った。

ユニバーシティ・カレッジ・ロンドン(UCL)のアンガス・リンチ氏も「現時点ではこうした行動が現実で確認された例はないが、それは単にシステムに権限が与えられていなかっただけ」と指摘している。

コメントを書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

モバイルバージョンを終了