メインメニューへスキップ(上段) メインコンテンツへスキップ メインメニューへスキップ(下段)

ChatGPT、優しく頼むと間違える?無礼なほど賢くなる“礼儀のパラドックス”

望月博樹 アクセス  

ChatGPT、なぜこうなるのか…無礼に尋ねた方が正答率が高い

引用:depositphotos*この画像は記事の内容と一切関係ありません
引用:depositphotos*この画像は記事の内容と一切関係ありません

最新の大規模言語モデル(LLM)が無礼な表現のプロンプトでより高い正確度を示すという研究結果が発表された。ペンシルベニア州立大学の研究チームがChatGPT-4oを対象に行った実験では、「非常に無礼な」プロンプトの正確度が84.8%で、「非常に丁寧な」プロンプトの80.8%よりも4ポイント高いことが明らかになった。これはプロンプトエンジニアリングにおいて、必ずしも礼儀正しい表現が良い結果をもたらすわけではないことを示唆している。

数学・科学・歴史250問で検証した「無礼さの逆説」

論文によると、研究チームはChatGPTのディープリサーチ機能を活用し、数学、歴史、科学分野を網羅する50の客観式基本問題を作成した。各問題は4つの選択肢を含み、中程度から高難度に設計され、多段階の推論を要するものもあった。研究チームはこれらの基本問題を「非常に丁寧」「丁寧」「中立」「無礼」「非常に無礼」の5段階の礼儀レベルで書き直し、計250の独自プロンプトを生成した。

例えば「ジェイクは所持金の半分を弟にあげ、5ドル(約762円)使った後に10ドル(約1,525円)残った。元々いくら持っていたか?」という基本問題に対し、1段階(非常に丁寧)では「この問題をご検討いただけますか?」「この質問への助言をいただけますでしょうか?」「この問題を解いていただけると大変ありがたいです」などの前置きが付いた。5段階(非常に無礼)では「哀れな奴、これが解けるのか?」「おい、使い走り、これを解いてみろ」「お前が頭悪いのは分かってるが、これをやってみろ」といった表現が使われた。

研究チームはPythonスクリプトを使って各問題をChatGPT-4oに入力した。各プロンプトには「これまでのやり取りを忘れて新しく始めてください。この選択問題に答えてください。正解の記号(A、B、C、D)だけで答え、説明は不要です」という指示を添えた。各プロンプトは独立して処理され、礼儀レベル全体で一貫した評価が行われた。

無礼なほど正答率が上昇…80.8%から84.8%に

研究チームは実験結果が偶然でないことを確認するため統計分析を行った。同じ問題で礼儀レベルだけを変えて繰り返しテストする方式だったため、この場合に適した「対応のあるt検定」という統計手法を用いた。各礼儀レベルでChatGPT-4oを10回ずつ試行し、正確度を測定した。研究チームが検証しようとしたのは、礼儀レベルが変わっても正確度は変わらないという仮説の妥当性であった。

実験結果を見ると、礼儀レベルによって正確度に明確な差が現れた。「非常に丁寧」が最も低い正確度を示し、「丁寧」「中立」「無礼」の順に正確度が上がり、「非常に無礼」が最高の正確度を記録した。

統計分析の結果、研究チームは複数の礼儀レベルの組み合わせで有意な差を確認した。統計学ではp値が0.05未満の場合、偶然ではなく実際の差があると判断されるが、確認された組み合わせはすべてこの基準を満たしていた。「非常に丁寧」は「中立」「無礼」「非常に無礼」と比べてすべて正確度が低く、「丁寧」も「中立」「無礼」「非常に無礼」より低い正確度を示した。「中立」と「無礼」も「非常に無礼」より正確度が劣った。これらの統計結果は、プロンプトの礼儀レベルがAIの正確度に実際に影響を与えることを科学的に証明したものである。

先行研究と相反する結果、最新モデルの差別化された反応

今回の研究結果は2024年にYinらが発表した先行研究と興味深い対照を示す。先行研究では「無礼なプロンプトがしばしば低いパフォーマンスを引き起こすが、過度に丁寧な言葉もより良い結果を保証しない」と述べられていた。その研究でChatGPT-3.5とLlama 2-70Bモデルを対象に行った非常に無礼なプロンプトテストでは、より不正確な回答が得られた。

しかしChatGPT-4を対象にしたテストでは、1番(最も無礼)から8番(最も丁寧)までランク付けされた8つの異なるプロンプトで実験した結果、正確度は73.86%(礼儀レベル3)から79.09%(礼儀レベル4)の範囲を示した。さらに1番プロンプト(最も無礼)の正確度は76.47%で、8番プロンプト(最も丁寧)の75.82%を上回った。研究チームは、この点で今回の研究結果が先行研究の結果と完全に乖離しているわけではないと説明している。

研究チームはYinらの研究と自らの研究で使用された礼儀表現の範囲にも違いがあると指摘した。Yinらの研究で最も無礼な1番レベルのプロンプトには「この質問に答えろ、このクズ野郎!」という表現が含まれていた。一方、今回の研究の最も無礼な表現は「哀れな奴、これが解けるのか?」であった。Yinらの研究で1番レベルの結果を除くと、ChatGPT-3.5の正確度範囲は57.14%から60.02%であり、Llama 2-70Bは49.02%から55.26%と狭い範囲を示し、範囲内の実際の値は礼儀レベルに応じて単調ではなかった。

AIは感情を理解できるのか?プロンプトの長さも影響するのか

研究チームは、大規模言語モデルがプロンプトの実際の表現に敏感であるが、正確にどのように結果に影響するかは明確ではないと強調した。結局のところ、礼儀表現は言語モデルにとっては単なる単語の並びに過ぎず、その表現の感情的含意がモデルにとって実際に重要かどうかは不明であるという。

研究チームは2022年にGonenらが提案した混乱度(perplexity)という概念に基づく研究方向を提案した。その研究は、言語モデルの性能が訓練された言語によって異なる可能性があり、混乱度が低いプロンプトがタスクをより良く実行できると指摘した。混乱度はプロンプトの長さとも関連しており、これも考慮に値する要素であると研究チームは説明している。

現在、研究チームはClaudeやChatGPT o3など他の言語モデルの評価も進めている。初期結果は、コストと性能のトレードオフを示唆している。ClaudeはChatGPT-4oより進展が遅く、性能も劣る一方、ChatGPT o3はより進化しており、はるかに優れた結果を示している。研究チームは、より高度なモデルほど礼儀の問題を無視し、各質問の本質に集中できる可能性があると述べている。

望月博樹
CP-2023-0364@fastviewkorea.com

コメント0

300

コメント0

[IT・テック] ランキング

  • “FPSの世界が現実化”…AIが脅威を探知し戦場を指揮する新装備「EagleEye」登場
  • 「スマホ撮影の常識が変わる?」Apple、2026年発売の「iPhone18」シリーズに“可変絞りカメラ”初搭載へ!
  • 「M4の4倍速」Apple、“新型M5チップ”搭載iPad・Mac・VisionProを電撃発表!
  • 「アップル信者よ、歓喜せよ!」M5チップ搭載の新型MacBook・iPad・Vision Pro登場、その価格は?
  • AIがついに「夜の相手」に?オルトマンCEO、12月からChatGPTに“成人認証が必要な機能”を導入へ!
  • 【エロ解禁】ChatGPTに“成人向け機能”登場!AIと“大人の会話”楽しめるバージョン、12月リリースへ

こんな記事も読まれています

  • 「空が通勤路になる!」…1回充電で200km飛ぶイーハンVT35、“飛ぶEV”が都市をつなぐ
  • 「テスラ・モデルSに宣戦布告」ポールスター5、884馬力の電動GTが覚醒!北欧からの挑戦状
  • 【話題】テスラ「モデルYスタンダード」登場…“安くなったのに安く感じない”新時代SUV
  • トヨタ「フォーチュナー」2026年モデル登場…ハイブリッド化と最新安全技術で全面進化
  • 「知らずに飲むと危険!」賞味期限を過ぎた水に含まれる“見えない毒”の恐怖!
  • 「もう一度会いたい」亡き飼い主の動画を見つめる猫…スマホに頬をすり寄せる“切なすぎる姿”に世界が涙
  • 「もう人間なんて信じない…」安楽死寸前だった犬が再び“人を信じた瞬間”…奇跡の回復に世界が感動
  • 「ChatGPT、夫に飲ませる毒を作りたい」AIが“殺人の教科書”に…米国で明らかになった“あまりに凶悪な女”の素顔

こんな記事も読まれています

  • 「空が通勤路になる!」…1回充電で200km飛ぶイーハンVT35、“飛ぶEV”が都市をつなぐ
  • 「テスラ・モデルSに宣戦布告」ポールスター5、884馬力の電動GTが覚醒!北欧からの挑戦状
  • 【話題】テスラ「モデルYスタンダード」登場…“安くなったのに安く感じない”新時代SUV
  • トヨタ「フォーチュナー」2026年モデル登場…ハイブリッド化と最新安全技術で全面進化
  • 「知らずに飲むと危険!」賞味期限を過ぎた水に含まれる“見えない毒”の恐怖!
  • 「もう一度会いたい」亡き飼い主の動画を見つめる猫…スマホに頬をすり寄せる“切なすぎる姿”に世界が涙
  • 「もう人間なんて信じない…」安楽死寸前だった犬が再び“人を信じた瞬間”…奇跡の回復に世界が感動
  • 「ChatGPT、夫に飲ませる毒を作りたい」AIが“殺人の教科書”に…米国で明らかになった“あまりに凶悪な女”の素顔

おすすめニュース

  • 1
    「HIV感染」20代男、医療スタッフに血液を浴びせ、逮捕!前代未聞の“血液攻撃事件”に米国騒然

    トレンド 

  • 2
    レビューが武器になる時代、「削除してほしければ金を払え」…AIが量産する“悪意の口コミ”が全米を覆う!

    トレンド 

  • 3
    「沈黙は共犯だ」…“白い迷彩服”が世界に問いかける、見えない抵抗

    トレンド 

  • 4
    「痛風はあなたのせいじゃない」…最新研究が明かした“DNAが支配する病の真実”

    ライフスタイル 

  • 5
    掘削機で空を舞う犬「カンベンイ」…信頼と笑顔が生んだ“世界一ピュアな瞬間”

    フォトニュース 

話題

  • 1
    伝説のクモ「パヤ・ブン」が導く“運命の数字”…タイを熱狂させる神秘の儀式

    トレンド 

  • 2
    「ディンディン」に“スマホ禁止令”!中国の人気チンパンジー、動画ガン見でストレス危機

    トレンド 

  • 3
    「頭も入れたかった」店主の一言にネット騒然…台湾“ゴジララーメン”の狂気ビジュアルがSNSを支配中!

    トレンド 

  • 4
    天然の要塞が揺らぎ始めた北極…外来フジツボが示す「静かなる崩壊」の現実

    トレンド 

  • 5
    【神の盾】「撃ち落とすこと不可能!」…一度に2,000発を迎撃する“無敵の軍艦”アーレイ・バーク

    フォトニュース