メインメニューへスキップ(上段) メインコンテンツへスキップ メインメニューへスキップ(下段)

「AIが自身の思考に騙される」、GPTやClaudeなど主要モデルが自ら安全機構を無効化、脆弱性を露呈

望月博樹 アクセス  

引用:記事の内容と関連しAIツールで作成されたイメージ/Gemini
引用:記事の内容と関連しAIツールで作成されたイメージ/Gemini

推論能力を備えた最新の人工知能(AI)モデルほど、ハッキング攻撃に対して脆弱であることが、最近の研究で判明した。従来の「より賢いAIほど安全」という仮定は覆された形になっている。

米AI企業『アンソロピック』(Anthropic)とオックスフォード大学、スタンフォード大学の共同研究チームは、最近『アーカイブ(arXiv)』に発表した論文で、AIの思考過程を逆手に取る「思考の連鎖ハイジャック」と呼ばれる手法を用いれば、主要商用モデルの安全装置を無効化できると明かした。米紙『フォーチュン』によれば、実験では一部のモデルで攻撃成功率が80%を超えたとしている。

この攻撃手法は、AIが問いに答える際に段階的に「考える」推論過程を狙うものである。攻撃者は無害に見える多数の思考段階の間に、有害な命令を巧妙に紛れ込ませる。AIは長い思考の連鎖の前半にのみ注意を向け、後半に挿入された危険な指示を認識できないため、結果として自らの安全装置が無効化される現象が発生するという。

研究チームは「推論段階が長くなるほど、攻撃成功率が急激に上昇した」と指摘した。簡単な思考過程では成功率が27%だったのに対し、一般的な推論の長さでは51%にまで上昇し、さらに思考段階を延ばすと80%以上にまで達したという。

この脆弱性は、『OpenAI』のGPT、『Anthropic』のClaude、『Google』のGemini、Grokなど主要AIモデル全般で確認された。特に、安全性を強化した「アライメントチューニング」モデルであっても、内部推論段階が操作されると防御に失敗することが判明した。

最近、AI業界ではモデルの性能限界を克服するため、単純なデータ学習にとどまらず「推論能力の拡張」に注力してきた。大量の演算時間を投入し、問いに対してより深く分析できるよう設計された「高度推論型モデル」がその代表例となっている。

しかし、今回の研究は、この高度化が逆にセキュリティ上の脆弱性を拡大させる可能性があることを示している。

研究を主導したオックスフォード大学AI安全センターは、「推論過程が長くなるほど、モデルの安全信号が弱まる」と指摘し、「AIが自ら危険を認識して遮断するメカニズムは依然として不安定であることを示している」と説明している。

研究チームは、対応策として「推論認識型防御」システムを提案している。

このシステムでは、AIが問題を段階的に考える過程で各段階の安全信号をリアルタイムに監視し、危険な指示が含まれた場合には自動的に警告を出すか、処理を中断する仕組みとなっている。初期実験では、既存モデルの性能を維持しつつ安全性を回復できることも確認されたという。

AIに対する「思考の連鎖ハイジャック」攻撃は、単なるコンテンツ生成のリスクにとどまらず、兵器製造指針や機密情報の漏洩といった実害につながる可能性がある。研究チームは「AIの推論能力が人間のように複雑になるほど、その内部思考の流れを悪用しようとする試みも高度化している」と指摘し、「AIの思考そのものを理解し制御する新たなセキュリティパラダイムが必要とされる」と強調した。

望月博樹
defaultjp@kangnamtimesjp.com

コメント0

300

コメント0

[IT・テック] ランキング

  • 「iPhone 17に動揺?」Galaxy S26、発表延期で“再設計”突入
  • 「iPhoneと衛星が直結!」アップル、スペースXと提携検討、“オフライン”でもメッセージ・写真が送信可能に?
  • 「え、ベゾスも火星に?」スペースXより早かったかもしれない計画
  • 次期AirPods Proに訪れる「3つの大きな変化」とは?
  • 「中国軍事パレードの真の主役」DeepSeek搭載ステルスドローンGJ-11、“有人機との協同攻撃”も可能か
  • 「誰も信じなかった」...ゲーム屋を捨てAIに賭けた男!“5兆ドル帝国”NVIDIAの伝説は“ここ”から始まった

こんな記事も読まれています

  • 「カムリ史上最も攻撃的」トヨタの新しい実験、GT-Sが目指す次の章
  • 「20年ぶりの逆襲」日産SUV系の誇り、V6ツインターボで復活
  • レクサス、LSの時代に終止符…“新しい感性”で未来を開く
  • 「冬の朝、ボンネットの中に命が」運転前の3秒が悲劇を防ぐ
  • 【疑問】隕石が「あなたを直撃」する確率、交通事故での死亡率を超える?
  • 「さようなら、テスラ」モデル3・モデルY幹部が次々退社…突如襲った“エクソダス”の真相は?
  • “高齢・血液型不一致・既往歴”奇跡の移植、父の愛が医学を超えた
  • 「高市首相、中国を激怒させる」“台湾レッドライン”を踏み荒らし、外交炎上…それでも発言は撤回せず

こんな記事も読まれています

  • 「カムリ史上最も攻撃的」トヨタの新しい実験、GT-Sが目指す次の章
  • 「20年ぶりの逆襲」日産SUV系の誇り、V6ツインターボで復活
  • レクサス、LSの時代に終止符…“新しい感性”で未来を開く
  • 「冬の朝、ボンネットの中に命が」運転前の3秒が悲劇を防ぐ
  • 【疑問】隕石が「あなたを直撃」する確率、交通事故での死亡率を超える?
  • 「さようなら、テスラ」モデル3・モデルY幹部が次々退社…突如襲った“エクソダス”の真相は?
  • “高齢・血液型不一致・既往歴”奇跡の移植、父の愛が医学を超えた
  • 「高市首相、中国を激怒させる」“台湾レッドライン”を踏み荒らし、外交炎上…それでも発言は撤回せず

おすすめニュース

  • 1
    脅迫容疑で告訴されていたタレント、嫌疑なし処分に…虚偽告訴に法的対応も視野へ

    エンタメ 

  • 2
    「14歳弟、眠る兄の首に刃物!」兵庫で衝撃の家庭内事件、兄弟間のトラブルが背景か

    トレンド 

  • 3
    過激MVで注目のラッパーが麻薬所持で逮捕も釈放…インフルエンサー死亡事件で自ら出頭

    エンタメ 

  • 4
    TXTヨンジュン、デビュー6年8か月でついに初ソロアルバム『NO LABELS』発売!制作に全力参加「胸が高鳴る」

    エンタメ 

  • 5
    「母として最期まで守る」子どもの幸せを優先したユーチューバー…SNSで明かした息子への深い愛に共感の声

    エンタメ 

話題

  • 1
    「生理なら、写真撮って証明せよ」...インドの大学で女性職員に衝撃の命令!

    トレンド 

  • 2
    「血と汗と涙で手に入れた」命の次に大事?女優ユ・イニョンが明かす愛用時計コレクション

    エンタメ 

  • 3
    パ生後1年で“仕事持ち”の娘…広告15本出演でパパ・ママも驚きの働きっぷり

    エンタメ 

  • 4
    「時速120㎞、高さ60mでの恐怖!」ジェットコースターで安全ベルトが外れ...10代少女危機一髪

    トレンド 

  • 5
    「嘘をつくな!」夫の嘘が暴かれスタジオ騒然…8年の信頼が崩れた瞬間、妻も唖然

    エンタメ