ChatGPT、優しく頼むと間違える？無礼なほど賢くなる“礼儀のパラドックス”

望月博樹 2025.10.16 アクセス

ChatGPT、なぜこうなるのか…無礼に尋ねた方が正答率が高い

最新の大規模言語モデル（LLM）が無礼な表現のプロンプトでより高い正確度を示すという研究結果が発表された。ペンシルベニア州立大学の研究チームがChatGPT-4oを対象に行った実験では、「非常に無礼な」プロンプトの正確度が84.8%で、「非常に丁寧な」プロンプトの80.8%よりも4ポイント高いことが明らかになった。これはプロンプトエンジニアリングにおいて、必ずしも礼儀正しい表現が良い結果をもたらすわけではないことを示唆している。

数学・科学・歴史250問で検証した「無礼さの逆説」

論文によると、研究チームはChatGPTのディープリサーチ機能を活用し、数学、歴史、科学分野を網羅する50の客観式基本問題を作成した。各問題は4つの選択肢を含み、中程度から高難度に設計され、多段階の推論を要するものもあった。研究チームはこれらの基本問題を「非常に丁寧」「丁寧」「中立」「無礼」「非常に無礼」の5段階の礼儀レベルで書き直し、計250の独自プロンプトを生成した。

例えば「ジェイクは所持金の半分を弟にあげ、5ドル（約762円）使った後に10ドル（約1,525円）残った。元々いくら持っていたか？」という基本問題に対し、1段階（非常に丁寧）では「この問題をご検討いただけますか？」「この質問への助言をいただけますでしょうか？」「この問題を解いていただけると大変ありがたいです」などの前置きが付いた。5段階（非常に無礼）では「哀れな奴、これが解けるのか？」「おい、使い走り、これを解いてみろ」「お前が頭悪いのは分かってるが、これをやってみろ」といった表現が使われた。

研究チームはPythonスクリプトを使って各問題をChatGPT-4oに入力した。各プロンプトには「これまでのやり取りを忘れて新しく始めてください。この選択問題に答えてください。正解の記号（A、B、C、D）だけで答え、説明は不要です」という指示を添えた。各プロンプトは独立して処理され、礼儀レベル全体で一貫した評価が行われた。

無礼なほど正答率が上昇…80.8%から84.8%に

研究チームは実験結果が偶然でないことを確認するため統計分析を行った。同じ問題で礼儀レベルだけを変えて繰り返しテストする方式だったため、この場合に適した「対応のあるt検定」という統計手法を用いた。各礼儀レベルでChatGPT-4oを10回ずつ試行し、正確度を測定した。研究チームが検証しようとしたのは、礼儀レベルが変わっても正確度は変わらないという仮説の妥当性であった。

実験結果を見ると、礼儀レベルによって正確度に明確な差が現れた。「非常に丁寧」が最も低い正確度を示し、「丁寧」「中立」「無礼」の順に正確度が上がり、「非常に無礼」が最高の正確度を記録した。

統計分析の結果、研究チームは複数の礼儀レベルの組み合わせで有意な差を確認した。統計学ではp値が0.05未満の場合、偶然ではなく実際の差があると判断されるが、確認された組み合わせはすべてこの基準を満たしていた。「非常に丁寧」は「中立」「無礼」「非常に無礼」と比べてすべて正確度が低く、「丁寧」も「中立」「無礼」「非常に無礼」より低い正確度を示した。「中立」と「無礼」も「非常に無礼」より正確度が劣った。これらの統計結果は、プロンプトの礼儀レベルがAIの正確度に実際に影響を与えることを科学的に証明したものである。

先行研究と相反する結果、最新モデルの差別化された反応

今回の研究結果は2024年にYinらが発表した先行研究と興味深い対照を示す。先行研究では「無礼なプロンプトがしばしば低いパフォーマンスを引き起こすが、過度に丁寧な言葉もより良い結果を保証しない」と述べられていた。その研究でChatGPT-3.5とLlama 2-70Bモデルを対象に行った非常に無礼なプロンプトテストでは、より不正確な回答が得られた。

しかしChatGPT-4を対象にしたテストでは、1番（最も無礼）から8番（最も丁寧）までランク付けされた8つの異なるプロンプトで実験した結果、正確度は73.86%（礼儀レベル3）から79.09%（礼儀レベル4）の範囲を示した。さらに1番プロンプト（最も無礼）の正確度は76.47%で、8番プロンプト（最も丁寧）の75.82%を上回った。研究チームは、この点で今回の研究結果が先行研究の結果と完全に乖離しているわけではないと説明している。

研究チームはYinらの研究と自らの研究で使用された礼儀表現の範囲にも違いがあると指摘した。Yinらの研究で最も無礼な1番レベルのプロンプトには「この質問に答えろ、このクズ野郎！」という表現が含まれていた。一方、今回の研究の最も無礼な表現は「哀れな奴、これが解けるのか？」であった。Yinらの研究で1番レベルの結果を除くと、ChatGPT-3.5の正確度範囲は57.14%から60.02%であり、Llama 2-70Bは49.02%から55.26%と狭い範囲を示し、範囲内の実際の値は礼儀レベルに応じて単調ではなかった。

AIは感情を理解できるのか？プロンプトの長さも影響するのか

研究チームは、大規模言語モデルがプロンプトの実際の表現に敏感であるが、正確にどのように結果に影響するかは明確ではないと強調した。結局のところ、礼儀表現は言語モデルにとっては単なる単語の並びに過ぎず、その表現の感情的含意がモデルにとって実際に重要かどうかは不明であるという。

研究チームは2022年にGonenらが提案した混乱度（perplexity）という概念に基づく研究方向を提案した。その研究は、言語モデルの性能が訓練された言語によって異なる可能性があり、混乱度が低いプロンプトがタスクをより良く実行できると指摘した。混乱度はプロンプトの長さとも関連しており、これも考慮に値する要素であると研究チームは説明している。

現在、研究チームはClaudeやChatGPT o3など他の言語モデルの評価も進めている。初期結果は、コストと性能のトレードオフを示唆している。ClaudeはChatGPT-4oより進展が遅く、性能も劣る一方、ChatGPT o3はより進化しており、はるかに優れた結果を示している。研究チームは、より高度なモデルほど礼儀の問題を無視し、各質問の本質に集中できる可能性があると述べている。

望月博樹

CP-2023-0364@fastviewkorea.com

他の記事を見る

[IT・テック] ランキング

「火星で雷の音が聞こえた」NASAが隠してきた危険な電気活動とは
「30万円のiPhone!? 」アップルが折りたたみiPhoneでプレミアム市場を取りに来た
「AndroidがAirDropを突破した」、アップルの防壁がついに崩れ始めた
「人間の頭蓋骨も砕ける」...NVIDIA出資のFigure AI、元安全責任者の“衝撃告発”で信用崩壊へ！
「軽さは正義、だが万能ではない」iPhone Air購入前に知るべき落とし穴
「寝ているだけでシャワー完了」…“人間洗濯機”1台のお値段は？

コメント多くのニュース

こんな記事も読まれています

「タイヤ1本交換は危険なのか」専門家が語る“許される境界”
「2秒で判定」クラクションの音が示す“始動不能の前兆”、整備士が隠してきた危険サインとは
「この匂いは危険です」車両火災直前に現れる“前兆トップ3”
「制御できない初速」電気自動車が次々と暴走、専門家が警鐘鳴らす構造リスク
「視界を壊す日常動作」眼鏡レンズが静かに傷む5つの落とし穴
「職員とラブホテル!?」市民が浸水と戦う中で市長はどこにいたのか
AI冷戦の火種、米中がAI覇権で真正面からぶつかる
「ドイツの巨人もついに中国に依存か！」VWが開発30％短縮を選んだ理由、欧州工場では大規模削減へ

こんな記事も読まれています

「タイヤ1本交換は危険なのか」専門家が語る“許される境界”
「2秒で判定」クラクションの音が示す“始動不能の前兆”、整備士が隠してきた危険サインとは
「この匂いは危険です」車両火災直前に現れる“前兆トップ3”
「制御できない初速」電気自動車が次々と暴走、専門家が警鐘鳴らす構造リスク
「視界を壊す日常動作」眼鏡レンズが静かに傷む5つの落とし穴
「職員とラブホテル!?」市民が浸水と戦う中で市長はどこにいたのか
AI冷戦の火種、米中がAI覇権で真正面からぶつかる
「ドイツの巨人もついに中国に依存か！」VWが開発30％短縮を選んだ理由、欧州工場では大規模削減へ

注目ニュース

話題

1
「犯人は恋人だった」3ヶ月昏睡から覚醒した男性が告白し、その後死亡

気になる
2025.11.30
2
イ・ビョンホンの妻役に抜擢された40代有名女優、衝撃的な体型を公開…「イメージと180度違う」

エンタメ
2025.11.30
3
涙の記者会見後、人気俳優が法廷で戦う理由とは？

エンタメ
2025.11.30
4
イ・イギョンは降板させられたが、ついに『遊ぶなら何する？』の空席を埋めた…主人公は「挨拶をする人々の集まり」のホ・ギョンファン

エンタメ
2025.11.30
5
「不倫の邪魔になるから」妻子3人を殺害した男、部下に“穴掘り”まで命じていた

気になる
2025.11.30

会社名 : 株式会社ファストビュー
住所 : 大韓民国ソウル特別市瑞草区江南大路369, 12階 1351号
事業者登録番号 : 762-87-01129
代表連絡先 : 02-6207-0785
青少年保護責任者：パク・サンウ
発行人：イ・ボヨン
編集者：キム・スア

モバイルバージョンを終了

ChatGPT、優しく頼むと間違える？無礼なほど賢くなる“礼儀のパラドックス”

ChatGPT、なぜこうなるのか…無礼に尋ねた方が正答率が高い

数学・科学・歴史250問で検証した「無礼さの逆説」

無礼なほど正答率が上昇…80.8%から84.8%に

先行研究と相反する結果、最新モデルの差別化された反応

AIは感情を理解できるのか？プロンプトの長さも影響するのか

アクセスランキング

[IT・テック] ランキング

コメント 多くのニュース

こんな記事も読まれています

こんな記事も読まれています

おすすめニュース

注目ニュース

話題

コメント多くのニュース