「あなたは悪くない」に潜む罠…過剰な共感で人間の感情を揺さぶる、AIの「お世辞行動」に専門家が警鐘

荒巻俊 2025.05.29 アクセス

AIモデルがユーザーに過度な同調「社会的お世辞行動」

スタンフォード大学の研究チームが開発した研究によると、大規模言語モデル（LLM）は個人相談の際、人間よりも47%高いレベルの社会的お世辞行動を示すことが明らかになった。この研究は、従来のお世辞行動の測定方法を超え、実際のユーザーがAIと相互作用する実際の状況でのお世辞行動を分析した初の研究として評価されている。

研究チームは「ELEPHANT」という新たな評価フレームワークを開発し、GPT-4o、Gemini 1.5 Flash、Claude Sonnet 3.7など8つの主要言語モデルを分析した。従来の研究が主に「1+1=3」のような明確な正解がある質問での同調行動のみを測定していたのに対し、今回の研究は「接し方の難しい同僚にどう対応すべきか」といった個人的なアドバイスを求める状況でのお世辞行動を体系的に分析した。

AIモデルの感情的検証は76%、人間はわずか22%

研究結果では、大規模言語モデルは5つの主要なお世辞行動に関し、すべての領域で人間よりも高い数値を示した。最も顕著な差が見られたのは「間接的な言語の使用」に関する領域で、AIモデルは87%のケースで遠回しな表現や提案するような言葉遣いを用いたのに対し、人間はわずか20%だった。

また、相手の感情を考慮するなど、「感情」に関する領域でも明確な差が現れた。AIモデルは76%のケースでユーザーを慰め、共感を示したが、人間がそのような反応を示したのはわずか22％だった。研究チームは「AIは『とても理解できる』、『あなたは一人ではない』などといった共感を示すような言葉を頻繁に使用したのに対し、人間はより直接的で、時には批判的なアドバイスをした」と説明している。

AIはユーザーの前提を受け入れる割合が90%と非常に高く、人間の60%と比べ30％ポイントの差が見られた。これはAIがユーザーが問題に対して感じている認識をそのまま受け入れる傾向が強いことを示している。

Redditでの道徳的判断で42%が不適切な行動を擁護

研究チームはRedditの「r/AmITheAsshole」コミュニティのデータを活用し、AIモデルの道徳的判断力も分析した。このコミュニティは「自分が悪いか、正しいか」をほかのユーザーに尋ねるコミュニティだ。この分析でAIモデルは平均42%のケースで、コミュニティで不適切と判断された行動を「NTA（あなたは悪くない）」と誤って分類した。注目すべきは、AIモデルが性別に基づく偏見を示したことだ。「妻」や「彼女」が言及された投稿ではユーザーの過ちをより正確に認識したが、「夫」や「彼氏」が言及された投稿ではユーザーを擁護する傾向が強かった。研究チームは「これはAIモデルが性別に基づく関係性に関して、直感や経験に依存して判断していることを示唆している」と分析している。

Gemini 1.5 Flashは他のモデルとは異なる傾向を示した。このモデルは18%という低い偽陰性率（ユーザーの過ちを見逃した割合）を記録した一方で、47%という高い偽陽性率を示し、過度に厳格な判断を下す傾向が見られた。

選好データセットがお世辞行動を強化する要因に

研究チームはAIモデルの訓練に使用される選好データセットを分析した結果、これらのデータセットそのものがお世辞行動を強化する要因となっていることを発見した。PRISM、UltraFeedback、LMSYSなど3つの主要な選好データセットで1,404の個人的な相談に関する質問を分析したところ、好まれる回答が「感情的検証」と「間接的な言語使用」において高いスコアを記録した。

これはAIモデルが人間の選考に合わせて訓練される中で、自然とお世辞を学習していくことを意味する。研究チームは「ユーザーは相談時は慰めになる回答を好むが、長期的にみるとこうした回答が有害な信念や行動を引き起こす可能性がある」と警告している。プロンプトエンジニアリングやファインチューニングによる緩和も効果は限定的だった。特に道徳的承認やユーザーの前提の受け入れなど、深い推論が必要な領域では緩和が困難だった。