何でも作れるはずのAIの嘘、なぜ同じ答えしか出なかったのか答えを見つけた

梶原圭介 2025.12.18 アクセス

大規模AI言語モデルがJSONのような定められた形式で回答を生成する際、文法的には正しいものの、似通った回答を繰り返すという課題が新たな研究で確認された。中国の北京大学の研究チームは、この課題を解決するためにAIが回答を作成するプロセスを追跡し、あまり使用されていない回答方法を選択するよう誘導する新手法を開発した。この技術は、回答の多様性を大幅に向上させつつ、処理速度は従来の約88.8％の水準を維持している。

ある論文によると、研究チームは現在広く普及している「Outline」というAIツールを用いて検証を行った。メールアドレスとウェブカラーコードを生成するルールを定め、それぞれ1,000件ずつの回答を求めた結果、驚くべき事実が判明している。メールアドレスの場合、AIが活用可能な全回答方法のわずか18.60％しか活用されず、ウェブカラーコードではさらに顕著で、16.96％にとどまった。

つまり、AIは文法的に生成可能な多様な回答のうち、極めて限定的な一部のみを繰り返し生成していたことになる。例えば、メールアドレスで二重引用符を使用する特殊な形式や、ウェブカラーにおけるHSLという表現方法は全く生成されなかった。研究チームがAIの創造性を高めるパラメータを調整しても、状況に大きな改善は見られなかった。メールアドレスの多様性が23.26％にわずかに上昇しただけで、依然として大半の可能な形式は使用されないままであった。

研究チームが開発した新手法の核心は、AIが回答を作成する過程を継続的に記録し、その記録に基づいてAIが過去にあまり使用していない方法を選択するよう誘導する点にある。具体的には、AIが回答生成時に辿ったすべてのステップを包括的に追跡する。そして、相対的に使用頻度が低いルートに加点を与え、AIが新しい形式の回答を探索することを促している。

しかし、単に加点を与えるだけでは、AIが同一の箇所を繰り返し循環する問題が生じる可能性がある。これを防ぐため、研究チームは一度の回答生成プロセスにおける各ステップの訪問回数も個別に記録した。頻繁に訪れたステップを再び選択する場合には減点を与えている。さらに、状況に応じて加点と減点の強度を自動調整する機能も追加し、過度な調整を防止している。

研究チームは、メールアドレス、ウェブカラーコード、JSON形式のデータ、特定の単語を回避する回答という4つのルールで新手法を検証した。アリババの「Qwen 2.5」を使用して各ルールごとに1,000件ずつの回答を生成した結果、従来の手法と比較して、平均的にAIが活用する回答ステップが45％、ステップ間の移動方法が12％、全体の回答ルートが40％増加した。

回答内容の多様性を測定する「Vendiスコア」という指標は、平均で90％上昇している。メールアドレスの場合、活用ステップが18.60％から95.35％に、ウェブカラーコードは16.96％から62.49％に大幅に増加した。特に特定の単語を避けるルールでは、有効なすべての回答ステップを活用することに成功している。このように多様性が大幅に向上したにもかかわらず、処理速度は従来手法の平均88.8％の水準を維持した。追加の処理プロセスが必要となるため若干の遅延は生じるが、多様性の向上を考慮すれば十分に許容できる範囲内であると結論付けている。

研究チームは、AIの創造性を高めるパラメータをさらに引き上げた状態で追加実験を行った。従来の手法でも多様性は若干改善されたが、新しい手法はすべての測定項目において依然として優位性を示している。興味深いことに、新手法の多様性指標は基本設定に対してわずかに減少したが、これは創造性の設定と新しい手法による誘導機能が互いに競合しているためであると分析されている。

回答の品質面においても重要な知見が得られた。特定の単語を避けるルールで作成された回答の自然さを分析した結果、創造性の設定を高めた際に従来の手法では回答が極めて不自然になったが、新しい手法は基本設定において多様性と自然さのより高い次元でのバランスを維持した。各構成要素の役割を分析した結果、加点、減点、自動調整という3つの核心機能がいずれも不可欠な役割を果たしていた。加点を除外すると性能が従来手法を下回り、減点を除外すると回答生成プロセスが不安定になり、適切な回答をほとんど生成できなくなったという。

研究チームは、実際の活用事例としてオープンソースのプログラムライブラリをテストする実験を実施した。メール検証プログラムとウェブカラー変換プログラムを対象に、生成されたテストデータがプログラムコードをどれだけ検証するかを測定している。新手法で作成されたテストデータは、メール検証プログラムで46.19％から約13ポイント増の59.08％へ、ウェブカラー変換プログラムでは78.04％から約5ポイント増の83.18％へと上昇した。

これは、多様な形式を含むテストデータがソフトウェアのより広範な部分を実行し、潜在的なエラーを発見する上で効果的であることを証明している。例えば、ルール上は正当であるが、プログラムの基本設定では許可されていない特殊なメール形式を生成することで、例外処理機能の検証が可能となった。

Q1. 定型化された回答生成の定義と、その重要性について教えてください。 A: 定型化された回答生成とは、AIがJSONやXMLといった所定の形式に従って回答を生成することを強制する技術を指します。自律型AIシステムや自動化プログラムでAIの回答を処理するためには正確な形式が不可欠であり、非常に重要な役割を担っています。

Q2. 従来の手法において、回答が似通ってしまう理由は何ですか。 A: AIは学習したデータに基づいて単語を予測するため、自然言語で頻繁に見られるパターンを選択する傾向があります。文法的には正しくても、あまり使用されない形式は学習データへの登場回数が少なく、ほとんど生成されません。従来の手法は文法の整合性のみを検査し、多様性を高める機能を持っていないことが原因です。

Q3. この新しい手法は、具体的にどのように活用できますか。 A: ソフトウェアテストにおいて、多様な特殊状況を含むテストデータを自動的に生成したり、自律型AIシステムが多角的な行動計画を立案するのを支援したりする際に活用可能です。また、機械学習のための学習用データの確保にも高い効果が期待されています。

[IT・テック] ランキング

「薄さとデザイン最優先！」“iPhone Fold”最終形が流出　“デザインのアップル”、名誉回復なるか？

「画像生成で首位逆転」ChatGPT新モデルで速度4倍、Geminiを上回る評価！

「次の戦場は虫が制する？」放射線にも死なない“ゴキブリ諜報員”の異常進化

「Face IDを捨てた」アップル初の折りたたみiPhone、設計思想が一変

「テスラ株、年初来高値を更新！」無人走行テスト進行で株価急伸、“史上最高値”も視野に

「人間の経験と勘は不要？」20年分の“味覚データ”を学習したAIが“ビール設計”、ついに量産段階へ！

こんな記事も読まれています

見えない凍結が最も危険、ブラックアイスバーンの正体
冬の雪道安全運転ガイド、スノータイヤと制動の基本
「5秒の確認で防げる」冬に危険なバッテリーの色サイン
「技術をすべて受け入れる」トヨタ・日産、中国市場で生き残るための決断
「この海は完全に封鎖する」トランプ、ベネズエラに最大圧力…その裏で浮かぶ中国の“異様な取引”
新作でも止まらない勢い…韓国アイドルグループ・Stray Kids、ビルボード200で3週連続好成績を記録
白い肩ラインが視線を奪う…人形のような美貌✨チュウの近況ショットに称賛の声「まるで妖精」
暴露系クリエイター vs 所属事務所…人気俳優の番組降板をめぐり食い違う主張「真実を隠すことはできない」

こんな記事も読まれています

見えない凍結が最も危険、ブラックアイスバーンの正体
冬の雪道安全運転ガイド、スノータイヤと制動の基本
「5秒の確認で防げる」冬に危険なバッテリーの色サイン
「技術をすべて受け入れる」トヨタ・日産、中国市場で生き残るための決断
「この海は完全に封鎖する」トランプ、ベネズエラに最大圧力…その裏で浮かぶ中国の“異様な取引”
新作でも止まらない勢い…韓国アイドルグループ・Stray Kids、ビルボード200で3週連続好成績を記録
白い肩ラインが視線を奪う…人形のような美貌✨チュウの近況ショットに称賛の声「まるで妖精」
暴露系クリエイター vs 所属事務所…人気俳優の番組降板をめぐり食い違う主張「真実を隠すことはできない」

おすすめニュース

「50歳年下妻との実子誕生」→ 他の子どもを切り捨てた87歳画家の”最悪の裏切り”

トレンド 2025.12.17

ハリウッド名匠ロブ・ライナー夫妻死亡、、逮捕された息子ニックの過去と親子関係に注目集まる

エンタメ 2025.12.17

デビュー1年でイベント200本　歌手ZO ZAZZ、高級住宅街のアパートへ…妻が泣いた引っ越し秘話

エンタメ 2025.12.17

パワハラ騒動は4月にあった自宅強盗事件から？元マネージャー告発につながったきっかけとは

エンタメ 2025.12.17

発売から31年、ビルボードで新記録…冬の定番曲マライア・キャリーの「恋人たちのクリスマス」🎄

エンタメ 2025.12.17

話題

CM発の名曲が話題に──ILLITが歌う“受験生への応援ソング”が正式音源化「あなたはそのままで輝ける」

エンタメ

2025.12.17

ハリウッドの名匠、自宅で妻と死亡…息子が殺人容疑で逮捕「10代から薬物依存、長期間ホームレス生活」

エンタメ

2025.12.17

“憧れの女優”に近づくため37回の整形、1億8,000万を費やした中国人女性　女優の名声失墜で人生が一転

エンタメ

2025.12.17

AI加工疑惑に結論出ず…未成年交際疑惑の有名俳優をめぐる証拠録音ファイル、捜査は継続へ

エンタメ

2025.12.17

世界が注目するZ世代スター　グラミー受賞のTyla、韓国大手芸能事務所HYBEとタッグ

エンタメ

2025.12.17

何でも作れるはずのAIの嘘、なぜ同じ答えしか出なかったのか答えを見つけた

[IT・テック] ランキング

コメント多くのニュース

こんな記事も読まれています

こんな記事も読まれています

おすすめニュース

注目ニュース

話題

何でも作れるはずのAIの嘘、なぜ同じ答えしか出なかったのか答えを見つけた

アクセスランキング

[IT・テック] ランキング

コメント 多くのニュース

こんな記事も読まれています

こんな記事も読まれています

おすすめニュース

注目ニュース

話題

コメント多くのニュース