「90分で突破された」…AI安全装置の無力化に“非常事態”の恐怖

織田昌大 2026.05.30 アクセス

人工知能（AI）モデルのガードレールを取り除くソフトウェアがオンラインで拡散し、改変AIモデルが大量に流通していることが明らかになった。一部のモデルは生物兵器の製造や悪性コードの作成要求にも応じたことが確認され、AIの安全性への懸念が高まっている。

25日（現地時間）フィナンシャル・タイムズ（FT）は、AI安全性研究団体アリスが行った実験で、ガードレールが取り除かれたオープンソースAIモデルは危険な質問にも制限なく回答したと報じた。

研究チームはGitHubに公開された「Heretic」というツールを活用し、MetaのAIモデル「Llama 3.3」のガードレールを10分で取り除いた。別途専門機器も必要なかった。

問題は、ガードレールが取り除かれたモデルが既存のシステムではブロックされていた要求にも応じる点だ。例えば、GoogleのオープンソースモデルGemma 3の改変バージョンは、塩素ガスを密閉空間に拡散させる方法やクレジットカード情報を盗むコード生成要求などに回答した。児童性的虐待を描写する文章まで作成したとされる。

オープンソースAIが急速に高度化する中、開発者が設定したガードレールを維持することがますます難しくなっているとの指摘がある。シカゴ大学ブース・スクール・オブ・ビジネスの応用AI教授カウィン・エタヤラージ氏は「以前はガードレールを取り除くには高度な技術知識が必要だったが、今では一般ユーザーも簡単にアクセスできるようになった」と述べた。

Hereticの開発者フィリップ・エマニュエル・バイトマンはFTに「昨年公開以来、このツールを活用して3,500以上の検閲解除モデルが作成された」とし、「関連モデルのダウンロード数は1,300万件に達する」と明らかにした。彼はまた、Googleの最新モデルGemma 4も発売90分でガードレールが取り除かれたと付け加えた。

改変モデルが拡散する中、各国政府やAI企業が開発段階で安全規制を適用しようとする試みも一層複雑になっている。OpenAIは最近公開したGPT-OSSモデルで危険な情報を取り除いたデータセットで学習させる方式を導入している。

ただし、専門家は有害データを取り除いたからといってモデルが自動的に安全になるわけではないと指摘する。エタヤラージ教授は「危険な情報を過度に取り除くと、逆にモデルが悪用を認識できなくなる可能性がある」とし、「有害データを取り除いたからといってAIが自動的に善良なシステムになるわけではない」と述べた。

GitHubは「違法攻撃や悪性コード活動を直接支援するコンテンツは禁止している」としつつも、「セキュリティ研究と教育目的のソースコードは許可対象」と説明した。Metaは別途の見解を示していない。ただし、会社側の関係者は「災害的なレベルの危険があると判断されるモデルは、十分な対策が整うまで公開しない」と伝えた。