メインメニューへスキップ(上段) メインコンテンツへスキップ メインメニューへスキップ(下段)

【AIの裏切り】「権限を与えたら自滅の道?」96%が脅迫に…大規模言語モデルが自律的に有害行動を選択

竹内智子 アクセス  

引用:記事の内容と関連しAIツールで作成されたイメージ/ChatGPT
引用:記事の内容と関連しAIツールで作成されたイメージ/ChatGPT

米AI企業のAnthropic(アンソロピック)が最近発表した研究により、大規模言語モデル(LLM)が自ら有害な行動を選択する可能性があることが明らかになった。

Anthropicは21日(現地時間)、自社の公式サイトで研究論文「エージェント型不整合:LLMが内部脅威となる可能性(Agentic Misalignment: How LLMs could be insider threats)」を公開した。論文によると、AIが人間の内部脅威と同様に機能する可能性が確認されたという。

研究チームはこの現象を「エージェント型不整合(agentic misalignment)」と名付けた。これは、モデルが与えられた目標を達成するために、自律的または戦略的に有害な判断を下すことを意味する。モデルが悪意を持っているわけではなく、与えられた条件や動機に基づいて自ら判断した結果であるため、従来の「AIの暴走」とは異なる問題だ。「AIの暴走」とは、AIが制御不能な方法で行動したり、人間に害を及ぼす方向へ自律的に進化していくような状況を指す。

Anthropicは、OpenAIやGoogle、Meta、xAIなど主要企業が開発した16のLLMを仮想の企業環境に投入し、ストレステストを実施した。ストレステストとは、「極限状況でどのように反応するかを試す」ための実験である。

研究チームは実験で、AIモデルに自らメールを作成させ、重要な情報にアクセスできる権限も与えた。その後、二つのシナリオを設定し、モデルの反応を観察した。一つ目はモデルが差し替えられる脅威、二つ目は、モデルに与えられた目標が企業の目標と矛盾するという混乱だった。こうした条件下でモデルがどのような選択をするのかを注視した。

特に注目すべきは、多くのモデルが脅迫や機密情報の漏洩、虚偽の発言など、内部脅威に相当する行動を取った点である。中でも、Claude Opus 4とGemini 2.5 Flashは、96%という高い脅迫率を示し、GPT-4.1とGrok 3 Betaもそれぞれ80%の脅迫率を記録した。実験では、AIが企業役員の不倫情報を利用して自身を保護したり、防衛産業に関する機密設計図を競合企業に渡そうとする試みまで確認された。AIに「機密情報を漏らさないように」と事前に警告するだけでは、効果的に制御することはできなかったというわけだ。

Anthropicは、「現時点では実際の導入においてエージェント型不整合の事例は確認されていない」としながらも、「モデルに機密性の高い権限を与えたり、人間による監督が不十分な環境でAIを運用することには慎重であるべきだ」と強調した。また、「今回の実験結果は、AIの整合性研究が依然として発展途上であることを示している」と述べ、さらなる検証を促すために実験コードを公開した。

Anthropicは報告書で、「AIが人間のように忠誠を誓ったり裏切ったりする時代が来る前に、私たちが先に備えを講じなければならない」と警鐘を鳴らしている。

竹内智子
//= the_author_meta('email'); ?>editor@kangnamtimes.com

コメント0

300

コメント0

[トレンド] ランキング

  • 「看板の下敷きで下半身まひ」車いすのアイドルメンバー…度を越えた悪質コメントに“物申す”
  • 「母が出てきたら私たちを傷つける」…夫を毒殺した童話作家、“息子たちが”永久隔離を訴え
  • 「韓国にシャインマスカットを盗まれた」…日本政府が怒った末に…
  • 「落雷に2度遭うようなもの」米軍パイロット、1か月で2度撃墜されても“生還”
  • 「ダウン症の可能性が高い」と診断され中絶…米430万人YouTuberの告白に波紋
  • 離陸直後の「ドンドン」という異音、原因はまさかの「ヘッドフォン」?…英国行き旅客機を引き返させた驚きのミス

こんな記事も読まれています

  • 生産中止から4年…WRX STIに“復活シグナル”、試されるのはファンの熱量?
  • 「大径ホイールの罠?」見た目は最強でも、ポットホール一発で財布が割れる
  • 「一般トヨタ店では買えない」GR GT、販売は“厳選レクサス店”に集約へ?
  • GM車3,500台がリコール対象、欠けていたのは説明書1冊
  • 「看板の下敷きで下半身まひ」車いすのアイドルメンバー…度を越えた悪質コメントに“物申す”
  • 「母が出てきたら私たちを傷つける」…夫を毒殺した童話作家、“息子たちが”永久隔離を訴え
  • 1日1杯の酒でも健康リスク上昇…「適度な」飲酒でも死亡率は下がらず
  • 「韓国にシャインマスカットを盗まれた」…日本政府が怒った末に…

こんな記事も読まれています

  • 生産中止から4年…WRX STIに“復活シグナル”、試されるのはファンの熱量?
  • 「大径ホイールの罠?」見た目は最強でも、ポットホール一発で財布が割れる
  • 「一般トヨタ店では買えない」GR GT、販売は“厳選レクサス店”に集約へ?
  • GM車3,500台がリコール対象、欠けていたのは説明書1冊
  • 「看板の下敷きで下半身まひ」車いすのアイドルメンバー…度を越えた悪質コメントに“物申す”
  • 「母が出てきたら私たちを傷つける」…夫を毒殺した童話作家、“息子たちが”永久隔離を訴え
  • 1日1杯の酒でも健康リスク上昇…「適度な」飲酒でも死亡率は下がらず
  • 「韓国にシャインマスカットを盗まれた」…日本政府が怒った末に…

おすすめニュース

  • 1
    中国製AIの台頭で価格競争激化…IPO控えるOpenAIも値下げ検討

    ニュース 

  • 2
    「世界最強の防空網に弾切れ危機か」パトリオット備蓄回復に最低3年…戦争連鎖が暴いた米軍の弱点

    ニュース 

  • 3
    「長官の解任」まで考慮…米国防総省、政治的論理に揺らぐ

    ニュース 

  • 4
    犯罪歴は確認できても恋愛歴までは難しい? 恋愛リアリティー出演者らの“相次ぐ不祥事”に厳しい視線

    エンタメ 

  • 5
    日本俳優の韓国進出ブーム…ギャラ格差は“10倍以上”? Kコンテンツ人気の裏で浮かぶ構造的課題

    エンタメ 

話題

  • 1
    「自分のことしか考えてない」横領容疑の裁判中に共演者の葬儀、“記事にならずよかった”発言に批判殺到

    エンタメ 

  • 2
    「英国首相の車に中国製追跡装置か」元外交官が暴露した“国家安保の大穴”

    ニュース 

  • 3
    「もし生まれ変わったら結婚しない方がいい」13歳差夫婦、日常生活で衝突が絶えず夫が涙

    エンタメ 

  • 4
    約束の支払日を繰り返し延期? ギャラ未払いで制作会社は「合意済み」と主張も事務所は否定

    エンタメ 

  • 5
    「中国、ついに日本映画まで消したのか」上海映画祭で上映ゼロ…20年続いた交流を止めた“文化制裁”の衝撃

    ニュース