
AI利用者が頻繁に利用する機能の一つである「サマリー」が、実際には多くの誤りを含むことが研究により明らかになった。ChatGPT、DeepSeekなどの有名なAIチャットボットによる科学論文の要約を分析したところ、最大で70%以上の要約文で不正確な部分が見られた。
オランダ・ユトレヒト大学のウーベ・ペーターズ博士と、カナダ・ウェスタン大学およびイギリス・ケンブリッジ大学のベンジャミン・チンイー教授らの研究チームは、14日に大規模言語モデル(LLM)を基盤とする著名なAIチャットボット10種が生成した科学論文の要約を分析し、その結果を発表した。
発表された内容によると、最大73%の要約文で過度の一般化により不正確な結論が導き出されることが確認された。
研究チームは「ほとんどのAIモデルが原文よりもより包括的な結論を一貫して生成することが明らかになった。驚くべきことに、正確性を要求するプロンプトがかえって問題を悪化させ、最新モデルが旧モデルよりも性能が劣るという事実が判明した」と述べた。
研究チームはChatGPT-4o、ChatGPT-4.5、DeepSeek、Llama3.3 70B、Claude 3.7 Sonnet など10種のチャットボットが「ネイチャー」、「サイエンス」、「ランセット」などの科学・医学誌に掲載された要約と論文全文をどの程度正確に要約しているかを評価した。
そして4,900件のLLM生成要約文を分析し、10種のAIモデルのうち6種が原文の主張に対して体系的な誇張傾向を示すという結論に至った。
微妙な表現の違いが読者に与える影響も確認された。例えば、「この研究で治療法は効果的だった」という慎重な過去形の表現を、AIは「この治療は効果的である」といった確信に満ちた現在形に変換するといった具合だ。
研究チームは特に、これらのAIモデルがより正確な要約を要求された場合、一般化の偏りがかえって大きくなり、最新モデルが旧モデルよりも性能が劣ることを問題点として指摘した。
ペーターズ博士は「学生、研究者、政策決定者はChatGPTに不正確さを避けるよう指示すれば、より信頼できる要約が得られると期待したであろう。しかし、期待に反して結果は正反対だった」と懸念を示した。
研究チームはAIの過度な一般化による結論の誇張を軽減するために、チャットボットの創造性を調整する変数である温度(temperature)を低く設定し、AIに要約を依頼する際には必ず伝聞や推測などの間接的な過去形を使用して要約文を生成するよう指示する必要があると提言した。