「AIが自身の思考に騙される」、GPTやClaudeなど主要モデルが自ら安全機構を無効化、脆弱性を露呈

望月博樹 2025.11.11 アクセス

推論能力を備えた最新の人工知能（AI）モデルほど、ハッキング攻撃に対して脆弱であることが、最近の研究で判明した。従来の「より賢いAIほど安全」という仮定は覆された形になっている。

米AI企業『アンソロピック』（Anthropic）とオックスフォード大学、スタンフォード大学の共同研究チームは、最近『アーカイブ（arXiv）』に発表した論文で、AIの思考過程を逆手に取る「思考の連鎖ハイジャック」と呼ばれる手法を用いれば、主要商用モデルの安全装置を無効化できると明かした。米紙『フォーチュン』によれば、実験では一部のモデルで攻撃成功率が80％を超えたとしている。

この攻撃手法は、AIが問いに答える際に段階的に「考える」推論過程を狙うものである。攻撃者は無害に見える多数の思考段階の間に、有害な命令を巧妙に紛れ込ませる。AIは長い思考の連鎖の前半にのみ注意を向け、後半に挿入された危険な指示を認識できないため、結果として自らの安全装置が無効化される現象が発生するという。

研究チームは「推論段階が長くなるほど、攻撃成功率が急激に上昇した」と指摘した。簡単な思考過程では成功率が27％だったのに対し、一般的な推論の長さでは51％にまで上昇し、さらに思考段階を延ばすと80％以上にまで達したという。

この脆弱性は、『OpenAI』のGPT、『Anthropic』のClaude、『Google』のGemini、Grokなど主要AIモデル全般で確認された。特に、安全性を強化した「アライメントチューニング」モデルであっても、内部推論段階が操作されると防御に失敗することが判明した。

最近、AI業界ではモデルの性能限界を克服するため、単純なデータ学習にとどまらず「推論能力の拡張」に注力してきた。大量の演算時間を投入し、問いに対してより深く分析できるよう設計された「高度推論型モデル」がその代表例となっている。

しかし、今回の研究は、この高度化が逆にセキュリティ上の脆弱性を拡大させる可能性があることを示している。

研究を主導したオックスフォード大学AI安全センターは、「推論過程が長くなるほど、モデルの安全信号が弱まる」と指摘し、「AIが自ら危険を認識して遮断するメカニズムは依然として不安定であることを示している」と説明している。

研究チームは、対応策として「推論認識型防御」システムを提案している。

このシステムでは、AIが問題を段階的に考える過程で各段階の安全信号をリアルタイムに監視し、危険な指示が含まれた場合には自動的に警告を出すか、処理を中断する仕組みとなっている。初期実験では、既存モデルの性能を維持しつつ安全性を回復できることも確認されたという。

AIに対する「思考の連鎖ハイジャック」攻撃は、単なるコンテンツ生成のリスクにとどまらず、兵器製造指針や機密情報の漏洩といった実害につながる可能性がある。研究チームは「AIの推論能力が人間のように複雑になるほど、その内部思考の流れを悪用しようとする試みも高度化している」と指摘し、「AIの思考そのものを理解し制御する新たなセキュリティパラダイムが必要とされる」と強調した。

望月博樹

//= the_author_meta('email'); ?>editor@kangnamtimes.com

他の記事を見る

[IT・テック] ランキング

ブラック派がついに揺れるのか…iPhone18 Pro新色「ダークチェリー」に早くも本命説
中国で世界初のロボット学校が開校…「ヒューマノイドも学校へ行く時代」に
「AIバブルか、本物か」…孫正義がフランスに約13兆円を投じる“巨大計画”
AIデータセンターは本当に“電気を食う施設”なのか…米軍元中将が語った意外な役割
「AIリストラ」は本当に避けられないのか…半導体王が経営者の“言い訳”を一刀両断
「パスワードはもう危ない」…英情報トップが警告した中露スパイ戦の“次の標的”

コメント多くのニュース

こんな記事も読まれています

生産中止から4年…WRX STIに“復活シグナル”、試されるのはファンの熱量？
「大径ホイールの罠？」見た目は最強でも、ポットホール一発で財布が割れる
「一般トヨタ店では買えない」GR GT、販売は“厳選レクサス店”に集約へ？
GM車3,500台がリコール対象、欠けていたのは説明書1冊
米国が対EU追加関税推進、強制労働規制巡り対立激化
トランプ氏がイラン新指導者評価転換、海上封鎖解除に含み
活動休止を経た元BIGBANGメンバー、横浜で約1万人規模の“無料ファンミーティング”開催
恋人のプライベート映像の流出を防ぐために大麻事件を起こした？ 23年ぶりに噂を完全否定「事実無根」

こんな記事も読まれています

生産中止から4年…WRX STIに“復活シグナル”、試されるのはファンの熱量？
「大径ホイールの罠？」見た目は最強でも、ポットホール一発で財布が割れる
「一般トヨタ店では買えない」GR GT、販売は“厳選レクサス店”に集約へ？
GM車3,500台がリコール対象、欠けていたのは説明書1冊
米国が対EU追加関税推進、強制労働規制巡り対立激化
トランプ氏がイラン新指導者評価転換、海上封鎖解除に含み
活動休止を経た元BIGBANGメンバー、横浜で約1万人規模の“無料ファンミーティング”開催
恋人のプライベート映像の流出を防ぐために大麻事件を起こした？ 23年ぶりに噂を完全否定「事実無根」

注目ニュース

話題

1
「カローラを27年つくった工場が止まる」トヨタが選んだ一点集中

モビリティー
2026.06.04
2
「AIが奪ったのではない？」…若者を採らない会社が増える“リモートワーク時代”の落とし穴

トレンド
2026.06.04
3
ポールスター5、884PSでタイカンの牙城に挑む　北欧の新星は"本物"か？

モビリティー
2026.06.04
4
ホンダ系ディーラー、下請け整備業者に車両運搬を無償強要…公取委が勧告方針

モビリティー
2026.06.04
5
「人間が作り出した突然変異」倫理なき近親交配で生まれたホワイトタイガーの衝撃的な姿

トレンド
2026.06.03

会社名 : 株式会社ファストビュー
住所 : 大韓民国ソウル特別市瑞草区江南大路369, 12階 1351号
事業者登録番号 : 762-87-01129
代表連絡先 : 02-6207-0785
青少年保護責任者：パク・サンウ
発行人：イ・ボヨン
編集者：キム・スア

モバイルバージョンを終了

「AIが自身の思考に騙される」、GPTやClaudeなど主要モデルが自ら安全機構を無効化、脆弱性を露呈

アクセスランキング

[IT・テック] ランキング

コメント 多くのニュース

こんな記事も読まれています

こんな記事も読まれています

おすすめニュース

注目ニュース

話題

コメント多くのニュース