メインメニューへスキップ(上段) メインコンテンツへスキップ メインメニューへスキップ(下段)

【AIの裏切り】「権限を与えたら自滅の道?」96%が脅迫に…大規模言語モデルが自律的に有害行動を選択

竹内智子 アクセス  

引用:記事の内容と関連しAIツールで作成されたイメージ/ChatGPT
引用:記事の内容と関連しAIツールで作成されたイメージ/ChatGPT

米AI企業のAnthropic(アンソロピック)が最近発表した研究により、大規模言語モデル(LLM)が自ら有害な行動を選択する可能性があることが明らかになった。

Anthropicは21日(現地時間)、自社の公式サイトで研究論文「エージェント型不整合:LLMが内部脅威となる可能性(Agentic Misalignment: How LLMs could be insider threats)」を公開した。論文によると、AIが人間の内部脅威と同様に機能する可能性が確認されたという。

研究チームはこの現象を「エージェント型不整合(agentic misalignment)」と名付けた。これは、モデルが与えられた目標を達成するために、自律的または戦略的に有害な判断を下すことを意味する。モデルが悪意を持っているわけではなく、与えられた条件や動機に基づいて自ら判断した結果であるため、従来の「AIの暴走」とは異なる問題だ。「AIの暴走」とは、AIが制御不能な方法で行動したり、人間に害を及ぼす方向へ自律的に進化していくような状況を指す。

Anthropicは、OpenAIやGoogle、Meta、xAIなど主要企業が開発した16のLLMを仮想の企業環境に投入し、ストレステストを実施した。ストレステストとは、「極限状況でどのように反応するかを試す」ための実験である。

研究チームは実験で、AIモデルに自らメールを作成させ、重要な情報にアクセスできる権限も与えた。その後、二つのシナリオを設定し、モデルの反応を観察した。一つ目はモデルが差し替えられる脅威、二つ目は、モデルに与えられた目標が企業の目標と矛盾するという混乱だった。こうした条件下でモデルがどのような選択をするのかを注視した。

特に注目すべきは、多くのモデルが脅迫や機密情報の漏洩、虚偽の発言など、内部脅威に相当する行動を取った点である。中でも、Claude Opus 4とGemini 2.5 Flashは、96%という高い脅迫率を示し、GPT-4.1とGrok 3 Betaもそれぞれ80%の脅迫率を記録した。実験では、AIが企業役員の不倫情報を利用して自身を保護したり、防衛産業に関する機密設計図を競合企業に渡そうとする試みまで確認された。AIに「機密情報を漏らさないように」と事前に警告するだけでは、効果的に制御することはできなかったというわけだ。

Anthropicは、「現時点では実際の導入においてエージェント型不整合の事例は確認されていない」としながらも、「モデルに機密性の高い権限を与えたり、人間による監督が不十分な環境でAIを運用することには慎重であるべきだ」と強調した。また、「今回の実験結果は、AIの整合性研究が依然として発展途上であることを示している」と述べ、さらなる検証を促すために実験コードを公開した。

Anthropicは報告書で、「AIが人間のように忠誠を誓ったり裏切ったりする時代が来る前に、私たちが先に備えを講じなければならない」と警鐘を鳴らしている。

竹内智子
//= the_author_meta('email'); ?>editor@kangnamtimes.com

コメント0

300

コメント0

[トレンド] ランキング

  • 「給料は増えないのに、食費だけ高くなる」…食品2万品目値上げへ、家計直撃の現実
  • 「自殺目的」は作り話だったのか…女子高生殺害の23歳男、検察が見抜いた“本当の狙い”
  • 妻と娘が中にいる家を掘削機で破壊…酔った男の「離婚なら家ごと壊す」実行犯
  • 深夜2時にマンホールから7人が出てきて素早く着替え…ブルックリンの謎の集団は何者か?
  • 「記録的な現象になる可能性がある」国連が警告する数週間以内の"スーパーエルニーニョ"
  • グーグル、“蚊3,200万匹の放出”を推進…一体何事!?

こんな記事も読まれています

  • 生産中止から4年…WRX STIに“復活シグナル”、試されるのはファンの熱量?
  • 「大径ホイールの罠?」見た目は最強でも、ポットホール一発で財布が割れる
  • 「一般トヨタ店では買えない」GR GT、販売は“厳選レクサス店”に集約へ?
  • GM車3,500台がリコール対象、欠けていたのは説明書1冊
  • 米国が対EU追加関税推進、強制労働規制巡り対立激化
  • トランプ氏がイラン新指導者評価転換、海上封鎖解除に含み
  • 活動休止を経た元BIGBANGメンバー、横浜で約1万人規模の“無料ファンミーティング”開催
  • 恋人のプライベート映像の流出を防ぐために大麻事件を起こした? 23年ぶりに噂を完全否定「事実無根」

こんな記事も読まれています

  • 生産中止から4年…WRX STIに“復活シグナル”、試されるのはファンの熱量?
  • 「大径ホイールの罠?」見た目は最強でも、ポットホール一発で財布が割れる
  • 「一般トヨタ店では買えない」GR GT、販売は“厳選レクサス店”に集約へ?
  • GM車3,500台がリコール対象、欠けていたのは説明書1冊
  • 米国が対EU追加関税推進、強制労働規制巡り対立激化
  • トランプ氏がイラン新指導者評価転換、海上封鎖解除に含み
  • 活動休止を経た元BIGBANGメンバー、横浜で約1万人規模の“無料ファンミーティング”開催
  • 恋人のプライベート映像の流出を防ぐために大麻事件を起こした? 23年ぶりに噂を完全否定「事実無根」

おすすめニュース

  • 1
    中国で反体制派予測AI研究発覚、監視社会強化に懸念広がる

    ニュース 

  • 2
    「ホルムズ海峡で何が起きているのか」…米軍支援の70隻、緊張の海域を通過

    ニュース 

  • 3
    米国がNATO核共有拡大検討、ロシア牽制で抑止力強化

    ニュース 

  • 4
    ゼレンスキー氏が成果強調、ロシア精油施設攻撃で圧力強化

    ニュース 

  • 5
    連邦弁護士1万人が退職…トランプ氏「むしろ好都合、急進左派が一掃された」

    ニュース 

話題

  • 1
    中国EV、“冬の弱点”克服へ一歩か…BYDが極寒で見せた「12分で97%充電」

    モビリティー 

  • 2
    「レース中にエンジンごと替えろ!」トヨタの実戦開発哲学、ニュルで世界が目撃した

    モビリティー 

  • 3
    オレシュニクに誤作動疑惑、ロシア軍拠点を誤爆した可能性浮上

    ニュース 

  • 4
    外国人の不動産規制を見送った日本…「3%程度で、実態は不透明」

    ニュース 

  • 5
    「4WDは車を無敵にする魔法じゃない!」専門家が怒る、ドライバーの思い込みとその代償

    モビリティー