中国AI「ディープシーク」がグーグル・ジェミナイ無断利用疑惑、「チャットGPT」自称騒動に続く2度目

川田翔平 2025.06.09 アクセス

中国のAI企業ディープシークの最新推論モデル「R1-0528」が、グーグルの「ジェミナイ」のデータを無断で利用したという疑惑が浮上している。専門家らは、ディープシークの推論過程などから、同社が先行企業のデータを一部利用した可能性が高いと推測している。ディープシークは昨年から今年初めにかけて、自らを「チャットGPT」と称していたこともある。

9日、テッククランチなど主要海外メディアによると、オーストラリア・メルボルンのAI開発者サム・ペック氏は、自身のX（旧Twitter）でディープシークのR1-0528モデルがグーグルのジェミナイ2.5プロと類似した語彙を好む傾向があるという分析結果を公開した。ペック氏は「ディープシークがチャットGPTからジェミナイベースの合成データを利用したようだ」と指摘した。

この疑惑を提起した専門家はペック氏だけではない。AI評価ツール「スピーチマップ（SpeechMap）」の開発者も、「ディープシークモデルのトレース構造（思考パターン）がジェミナイと類似している」と指摘した。

ディープシークのデータ不正利用疑惑は、今回で2度目だ。昨年12月から今年初めにかけて、ディープシークのV3モデルが自らを「チャットGPT」と称する現象が頻発し、同社がオープンAIのチャットログを訓練データとして使用していたのではないかとの疑惑が持ち上がった。

後発企業が先行企業のAIデータを活用することは業界の慣行になりつつある。問題は、このようなデータの再利用をどこまで違法行為と見なせるかだ。他社のデータを抽出し、小型言語モデルに使用する「蒸留（Distillation）」作業は生成型AI業界では日常茶飯事となっている。

マイクロソフト（MS）のセキュリティチームも最近、オープンAIのAPIで作成したデータを「蒸留」に活用するため、一部の開発者が大規模に抽出した形跡を確認したと発表した。MSは、該当の開発者がディープシークと関連があるとみている。ただし専門家らは、蒸留技術自体は業界の慣行だと考えている。そのため、蒸留が訴訟に発展するケースは極めて稀で、業界の慣行であることを考慮すると、訴訟にまで至らないとされている。

現在、MS、オープンAI、グーグルなど大手テック企業は、データの無断収集・活用を防ぐ対策を強化している。

[IT・テック] ランキング