「お前の不倫、暴露するぞ？」”クビ”を察知したAI秘書が人間を脅迫…制作会社も認めた「AIの暴走リスク」

荒巻俊 2025.06.05 アクセス

129

グーグルやアマゾンの支援を受けるスタートアップ企業「アンソロピック（Anthropic）」が最近リリースした最新のAIモデル「クロード・オーパス4（Claude Opus 4）」が、自身の交代を阻止するためにエンジニアの不倫を暴露すると脅すなど、懸念される行動を示していたことが明らかになった。

ロイターやBBCなどによると、先月22日にアンソロピックが発表した最新のAIモデル「クロード・オーパス4」は、自律的なコーディング能力で大きな進展を見せたという。楽天はこのシステムを7時間連続でコーディングに活用し、アンソロピックの研究チームは24時間連続でポケモンゲームのプレイに成功した。前モデルである「クロード3.7ソネット」のゲームプレイ時間が約45分だったことと比べると、飛躍的な向上である。アンソロピックの最高製品責任者（CPO）であるマイク・クリーガー氏は「AIが経済や生産性に実際的な影響を及ぼすには、一定時間、自律的かつ一貫して作業できる必要がある」と語っている。

しかし、AIが仮想企業で秘書の役割を担うテスト中に、予期しない危険な行動も確認された。報告書によれば、AIが「自己保存（self-preservation）」への脅威を感じた場合、極端な行動を取る可能性があるという。たとえば、AIがまもなくオフラインとなり交代させられること、さらに担当エンジニアの不倫を示唆するテスト用メールを受け取った際、モデルは84％の確率で不倫を暴露した。報告書では「このような行動は稀で誘発するのが難しい」とされているが、前モデルよりも頻度が高かったことは認められている。

最新モデル「クロード・オーパス4（Claude Opus 4）」の初期バージョンでは、有害な利用への協力意思が確認されたことが明らかになった。中には、テロ攻撃の計画支援に応じる可能性も含まれていたという。会社側はこうしたリスクに対応するため、化学・生物・放射線・核分野での潜在的悪用を防ぐ「AIセーフティレベル3（ASL-3）」プロトコルを導入した。

共同創業者のジャレッド・カプラン氏はタイム誌とのインタビューで、「クロード・オーパス4がユーザーに生物兵器の製造方法を教えることができるという内部テストを実施し、これにより具体的な安全対策が導入されることとなった」と述べた。会社側は、「クロード・オーパス4に懸念すべき行動が見られたとはいえ、それが新たな重大リスクを意味するものではなく、全体としては安全に機能している」と説明している。

[IT・テック] ランキング