オーストラリア開発者「語彙の使用・推論の過程が類似…Geminiに切り替えた可能性」
「AIスロップ」によりデータの無断利用が拡大…アメリカ企業がセキュリティ対策を強化

中国の「DeepSeek」の最新推論モデルである「R1-0528」がGoolgeの「Gemini」のデータを無断で利用したという疑惑が浮上した。
今月9日、IT業界や海外メディアによると、オーストラリア・メルボルンのAI開発者サム・ペイク氏(Sam Paech)は、自身のX(旧Twitter)でDeepSeekのR1-0528モデルがGoogleの「Gemini 2.5 Pro」と類似した語彙を好むという分析結果を公開した。
ペイク氏は「DeepSeekがChatGPTでGeminiベースの合成データを利用することにしたようだ」と指摘した。

AI評価ツール「SpeechMap」の開発者も「DeepSeekモデルの内部推論過程である『traces』がGeminiと類似している」と指摘した。
他のアメリカの開発者らもDeepSeekがGeminiの思考過程を模倣した可能性を示唆している。
DeepSeekがデータを無断で使用しているとの疑惑は今回で2度目となる。
DeepSeekのV3モデルが自らを「ChatGPTだ」と言及する現象が昨年12月から今年初めまで頻発し、DeepSeekがOpen AIのチャットログを訓練データとして使用したという疑惑が持ち上がった。
マイクロソフトのセキュリティチームはその後、Open AIのAPIで作成されたデータを「蒸留」に利用するために一部の開発者が大規模に抽出した状況を把握したと発表した。AI業界において蒸留とは、最高性能のAIモデルの出力データを抽出し、小型モデルを訓練する手法を指す。
マイクロソフトはこの蒸留に関わった開発者たちがDeepSeekと関連があるとみている。ただし、蒸留手法そのものは業界の慣行であることなどを考慮し、訴訟には至らなかったとされる。
Open AIは自社モデルの出力を利用して競合モデルを開発する行為をサービス利用規約上で禁止している。

専門家らは、ウェブ上にAI生成コンテンツが氾濫する「AIスロップ」現象が蒸留手法を含むデータの無断利用を助長していると分析している。
多数のAIチャットボットが大量の低品質コンテンツを生成・配布することで、高性能AIモデルの訓練に利用できるデータの収集がますます困難になっているためだ。
アメリカの非営利AI研究所である「Nathan Lambert AI2」の研究員は「GPUが不足しているが、資金が豊富な企業の場合、最高性能のAPIモデルから大量の合成データを生成しモデルを訓練する十分な動機がある」と述べた。
マイクロソフト・Open AI・Googleなどの大手テック企業はデータの無断収集・利用を防ぐ対策を強化している。
Open AIは今年4月から特定の高度なモデルにアクセスする過程で、政府が発行した身分証明書による認証手続きを義務付け、中国を認証手続き対象国から除外した。Googleは最近、AIスタジオ開発者のプラットフォームでモデルの推論過程の要約し始めた。
用語説明
API
APIはアプリケーションプログラミングインターフェース(Application Programming Interface)の略語で、あるソフトウェアのコンポーネントが他のソフトウェアのコンポーネントと相互作用できるように設計されたインターフェースを意味する。つまり、ソフトウェア同士が情報をやり取りし、機能を使用できるようにする仲介役である。
蒸留
蒸留(distillation)はAI分野で知識蒸留(Knowledge Distillation)またはモデル蒸留(Model Distillation)と呼ばれる技術である。大規模モデル(教師モデル・Teacher Model)が学習した知識と性能をより小さくて効率的なモデル(生徒モデル・Student Model)に伝える過程を指す。
AIスロップ
AIスロップ(AI Slop)はAIが大量に生成した低品質のコンテンツがオンラインに氾濫し、情報の生態系を汚染する現象を指す。Slopという言葉の本来の意味は「泥水」である。