メインメニューへスキップ(上段) メインコンテンツへスキップ メインメニューへスキップ(下段)

【AIの裏切り】「権限を与えたら自滅の道?」96%が脅迫に…大規模言語モデルが自律的に有害行動を選択

竹内智子 アクセス  

引用:記事の内容と関連しAIツールで作成されたイメージ/ChatGPT
引用:記事の内容と関連しAIツールで作成されたイメージ/ChatGPT

米AI企業のAnthropic(アンソロピック)が最近発表した研究により、大規模言語モデル(LLM)が自ら有害な行動を選択する可能性があることが明らかになった。

Anthropicは21日(現地時間)、自社の公式サイトで研究論文「エージェント型不整合:LLMが内部脅威となる可能性(Agentic Misalignment: How LLMs could be insider threats)」を公開した。論文によると、AIが人間の内部脅威と同様に機能する可能性が確認されたという。

研究チームはこの現象を「エージェント型不整合(agentic misalignment)」と名付けた。これは、モデルが与えられた目標を達成するために、自律的または戦略的に有害な判断を下すことを意味する。モデルが悪意を持っているわけではなく、与えられた条件や動機に基づいて自ら判断した結果であるため、従来の「AIの暴走」とは異なる問題だ。「AIの暴走」とは、AIが制御不能な方法で行動したり、人間に害を及ぼす方向へ自律的に進化していくような状況を指す。

Anthropicは、OpenAIやGoogle、Meta、xAIなど主要企業が開発した16のLLMを仮想の企業環境に投入し、ストレステストを実施した。ストレステストとは、「極限状況でどのように反応するかを試す」ための実験である。

研究チームは実験で、AIモデルに自らメールを作成させ、重要な情報にアクセスできる権限も与えた。その後、二つのシナリオを設定し、モデルの反応を観察した。一つ目はモデルが差し替えられる脅威、二つ目は、モデルに与えられた目標が企業の目標と矛盾するという混乱だった。こうした条件下でモデルがどのような選択をするのかを注視した。

特に注目すべきは、多くのモデルが脅迫や機密情報の漏洩、虚偽の発言など、内部脅威に相当する行動を取った点である。中でも、Claude Opus 4とGemini 2.5 Flashは、96%という高い脅迫率を示し、GPT-4.1とGrok 3 Betaもそれぞれ80%の脅迫率を記録した。実験では、AIが企業役員の不倫情報を利用して自身を保護したり、防衛産業に関する機密設計図を競合企業に渡そうとする試みまで確認された。AIに「機密情報を漏らさないように」と事前に警告するだけでは、効果的に制御することはできなかったというわけだ。

Anthropicは、「現時点では実際の導入においてエージェント型不整合の事例は確認されていない」としながらも、「モデルに機密性の高い権限を与えたり、人間による監督が不十分な環境でAIを運用することには慎重であるべきだ」と強調した。また、「今回の実験結果は、AIの整合性研究が依然として発展途上であることを示している」と述べ、さらなる検証を促すために実験コードを公開した。

Anthropicは報告書で、「AIが人間のように忠誠を誓ったり裏切ったりする時代が来る前に、私たちが先に備えを講じなければならない」と警鐘を鳴らしている。

竹内智子
takeuchit@kangnamtimes.jp

コメント0

300

コメント0

[トレンド] ランキング

  • 「もう限界を超えた」世界のサンゴ礁が崩壊寸前…23か国・160人の科学者が緊急警告
  • 16年隠していた不倫が発覚!父親の葬儀で「もう一人の妻」が現れ、中国の男に懲役1年
  • 「背後から突然襲いかかってきた」山形でクマに襲われた女性の“生々しい証言”
  • 自宅の庭で死亡した60代女性、‟飢えた飼い犬”が遺体を食べ…骨は家のあちこちに散乱
  • 散歩中にピットブルに襲われた母娘…“リードを外したまま放置”した飼い主に捜査進行
  • 「黄色い膜」に包まれて生まれた赤ちゃん…全身が“うろこ”に覆われたその不思議な運命

こんな記事も読まれています

  • フォード「ブロンコEV」登場…BYD電池搭載、キャンピング仕様で中国市場に挑む
  • 【人気爆発】4年待ちの「ランドクルーザー」、値上げしても完売続出…“売れるから強気”
  • フェラーリでもポルシェでもない…伝説俳優マックイーンが最後まで愛した「ハドソン・ワスプ」が競売へ
  • 【スバル覚醒】「インプレッサ魂」がEVで蘇る!独自開発の高性能ヘイローモデル計画始動
  • 「もう限界を超えた」世界のサンゴ礁が崩壊寸前…23か国・160人の科学者が緊急警告
  • 【衝撃告白】カン・ジュウン、“ミスコリア合宿から脱走”…夜中に仲間とカラオケへ!?
  • 「寝落ちしたら誰もいなかった」…カン・ハヌル、『ラジオスター』で語った“想像超えの裏話”
  • 「人生最大の後悔」…アル・パチーノ、ダイアン・キートンとの“叶わなかった愛”に涙

こんな記事も読まれています

  • フォード「ブロンコEV」登場…BYD電池搭載、キャンピング仕様で中国市場に挑む
  • 【人気爆発】4年待ちの「ランドクルーザー」、値上げしても完売続出…“売れるから強気”
  • フェラーリでもポルシェでもない…伝説俳優マックイーンが最後まで愛した「ハドソン・ワスプ」が競売へ
  • 【スバル覚醒】「インプレッサ魂」がEVで蘇る!独自開発の高性能ヘイローモデル計画始動
  • 「もう限界を超えた」世界のサンゴ礁が崩壊寸前…23か国・160人の科学者が緊急警告
  • 【衝撃告白】カン・ジュウン、“ミスコリア合宿から脱走”…夜中に仲間とカラオケへ!?
  • 「寝落ちしたら誰もいなかった」…カン・ハヌル、『ラジオスター』で語った“想像超えの裏話”
  • 「人生最大の後悔」…アル・パチーノ、ダイアン・キートンとの“叶わなかった愛”に涙

おすすめニュース

  • 1
    「英雄の終焉か」ウクライナ国民の51%がゼレンスキー氏に“退陣または裁き”を要求

    ニュース 

  • 2
    「金・銀バブル」1オンス4,100ドル突破!世界が“安全資産”に逃げ込む時代へ

    ニュース 

  • 3
    オランダ政府、ついに中国半導体に“鉄槌”!Nexperiaを国家安全保障の脅威と認定し“異例の介入措置”発動

    ニュース 

  • 4
    テスラ、中国で販売7万台突破…回復の兆しも“7カ月連続減少”という現実

    ニュース 

  • 5
    【AI覇権戦争】マイクロソフトとソフトバンク、英国ウェイブに20億ドル規模の投資を協議

    ニュース 

話題

  • 1
    オープンAI、ブロードコムと“カスタムAIチップ”を共同開発…「超大型コンピューティング基盤」確保へ本格始動

    ニュース 

  • 2
    「Apple AirPods、次のステージへ!」体温測定&カメラ搭載で“アクセサリーを超える存在”に

    IT・テック 

  • 3
    「ハマス、イスラエルを激怒させる挑発行為!」28人の遺体のうち4人だけ返還…“約束違反の代償は高くつく”

    ニュース 

  • 4
    「米、史上最長のシャットダウンの可能性」13日目も平行線…与野党の“最大の争点”とは

    ニュース 

  • 5
    「逆襲のマスク」連続爆発からの完全復活…スターシップが示した“宇宙覇権”への道

    IT・テック