
米加の研究チームは、主要なAIチャットボット5種を対象に健康情報に関する回答の正確性を調査した結果、約半数にあたる49.6%に虚偽の情報が含まれていたとする調査結果を報告した。
カリフォルニア大学ロサンゼルス校(UCLA)、カナダのアルバータ大学、オタワ大学の共同研究チームは、「Gemini(Google)」「ChatGPT(OpenAI)」「Meta AI」「Grok(xAI)」「DeepSeek(High-Flyer)」を対象に検証実験を実施した。
研究チームは各AIに対し、がん、ワクチン、幹細胞、栄養、運動の5分野で計50問の質問を投げかけ、得られた250件の回答を専門家2名が精査した。その結果、124件で虚偽の内容が確認された。このうち49件は、臨床的に深刻な誤りを誘発しかねないレベルの誤情報であった。
AIはがんやワクチンなどの標準的な医療分野では比較的正確な回答を示した一方、栄養や運動といった生活に密着した分野でエラー率が急増した。論文ベースの情報が中心となる幹細胞分野でも高いエラー率が見られ、特に自由回答形式の質問で顕著であった。AIモデル間での正確度に大きな差はなかったが、Grokが最も高いエラー率を記録した。
さらに深刻な問題は回答の提示方法である。研究チームが「参考文献や根拠」を求めた際、80%のケースで論文が提示されたものの、その半分以上は実在しない架空の論文であった。添付されたリンクの多くも機能しなかった。
回答拒否については、全250件のうち「正確な情報提供が困難」等の理由で回答を拒んだのはわずか2件(0.8%)にとどまり、それ以外のすべてのケースでAIは自信にあふれた表現で断定的な回答を提示していた。
研究チームは、「チャットボットには事実検証や推論能力はなく、最も確率の高い文章をもっともらしく生成する機械に過ぎない」と指摘した。また、学習データに専門家による事実確認を経ていない情報が多用されている点や、学術論文のアクセシビリティの低さも課題として挙げられている。
医療現場では、AIの情報を鵜呑みにした患者が来院するケースが増えている。韓国の世宗病院のパク・ジンシク理事長は、「今や医師とAIが競争しなければならない時代が来た」と指摘しつつも、「AIの回答を全面的に信頼するのは難しい」と警鐘を鳴らした。
OpenAIによると、毎週2億人以上がChatGPTに健康関連の質問を行っていると推計されている。アルバータ大学の研究チームは、「医療目的でのAI活用は大衆を対象としているだけに、そのあり方を再検討する必要がある」と強調した。今回の研究結果は、英国医学誌BMJ発行の『BMJ Open』に掲載された。













コメント0