20.1 C
Tokyo
2025年06月10日火曜日
ホームニュースIT・テック中国AI「ディープシーク」がグーグル・ジェミナイ無断利用疑惑、「チャットGPT」自称騒動に続く2度目

中国AI「ディープシーク」がグーグル・ジェミナイ無断利用疑惑、「チャットGPT」自称騒動に続く2度目

引用:Depositphotos

中国のAI企業ディープシークの最新推論モデル「R1-0528」が、グーグルの「ジェミナイ」のデータを無断で利用したという疑惑が浮上している。専門家らは、ディープシークの推論過程などから、同社が先行企業のデータを一部利用した可能性が高いと推測している。ディープシークは昨年から今年初めにかけて、自らを「チャットGPT」と称していたこともある。

9日、テッククランチなど主要海外メディアによると、オーストラリア・メルボルンのAI開発者サム・ペック氏は、自身のX(旧Twitter)でディープシークのR1-0528モデルがグーグルのジェミナイ2.5プロと類似した語彙を好む傾向があるという分析結果を公開した。ペック氏は「ディープシークがチャットGPTからジェミナイベースの合成データを利用したようだ」と指摘した。

この疑惑を提起した専門家はペック氏だけではない。AI評価ツール「スピーチマップ(SpeechMap)」の開発者も、「ディープシークモデルのトレース構造(思考パターン)がジェミナイと類似している」と指摘した。

ディープシークのデータ不正利用疑惑は、今回で2度目だ。昨年12月から今年初めにかけて、ディープシークのV3モデルが自らを「チャットGPT」と称する現象が頻発し、同社がオープンAIのチャットログを訓練データとして使用していたのではないかとの疑惑が持ち上がった。

後発企業が先行企業のAIデータを活用することは業界の慣行になりつつある。問題は、このようなデータの再利用をどこまで違法行為と見なせるかだ。他社のデータを抽出し、小型言語モデルに使用する「蒸留(Distillation)」作業は生成型AI業界では日常茶飯事となっている。

マイクロソフト(MS)のセキュリティチームも最近、オープンAIのAPIで作成したデータを「蒸留」に活用するため、一部の開発者が大規模に抽出した形跡を確認したと発表した。MSは、該当の開発者がディープシークと関連があるとみている。ただし専門家らは、蒸留技術自体は業界の慣行だと考えている。そのため、蒸留が訴訟に発展するケースは極めて稀で、業界の慣行であることを考慮すると、訴訟にまで至らないとされている。

現在、MS、オープンAI、グーグルなど大手テック企業は、データの無断収集・活用を防ぐ対策を強化している。

関連記事

コメントを書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください