
大規模AI言語モデルがJSONのような定められた形式で回答を生成する際、文法的には正しいものの、似通った回答を繰り返すという課題が新たな研究で確認された。中国の北京大学の研究チームは、この課題を解決するためにAIが回答を作成するプロセスを追跡し、あまり使用されていない回答方法を選択するよう誘導する新手法を開発した。この技術は、回答の多様性を大幅に向上させつつ、処理速度は従来の約88.8%の水準を維持している。
ある論文によると、研究チームは現在広く普及している「Outline」というAIツールを用いて検証を行った。メールアドレスとウェブカラーコードを生成するルールを定め、それぞれ1,000件ずつの回答を求めた結果、驚くべき事実が判明している。メールアドレスの場合、AIが活用可能な全回答方法のわずか18.60%しか活用されず、ウェブカラーコードではさらに顕著で、16.96%にとどまった。
つまり、AIは文法的に生成可能な多様な回答のうち、極めて限定的な一部のみを繰り返し生成していたことになる。例えば、メールアドレスで二重引用符を使用する特殊な形式や、ウェブカラーにおけるHSLという表現方法は全く生成されなかった。研究チームがAIの創造性を高めるパラメータを調整しても、状況に大きな改善は見られなかった。メールアドレスの多様性が23.26%にわずかに上昇しただけで、依然として大半の可能な形式は使用されないままであった。
研究チームが開発した新手法の核心は、AIが回答を作成する過程を継続的に記録し、その記録に基づいてAIが過去にあまり使用していない方法を選択するよう誘導する点にある。具体的には、AIが回答生成時に辿ったすべてのステップを包括的に追跡する。そして、相対的に使用頻度が低いルートに加点を与え、AIが新しい形式の回答を探索することを促している。
しかし、単に加点を与えるだけでは、AIが同一の箇所を繰り返し循環する問題が生じる可能性がある。これを防ぐため、研究チームは一度の回答生成プロセスにおける各ステップの訪問回数も個別に記録した。頻繁に訪れたステップを再び選択する場合には減点を与えている。さらに、状況に応じて加点と減点の強度を自動調整する機能も追加し、過度な調整を防止している。
研究チームは、メールアドレス、ウェブカラーコード、JSON形式のデータ、特定の単語を回避する回答という4つのルールで新手法を検証した。アリババの「Qwen 2.5」を使用して各ルールごとに1,000件ずつの回答を生成した結果、従来の手法と比較して、平均的にAIが活用する回答ステップが45%、ステップ間の移動方法が12%、全体の回答ルートが40%増加した。
回答内容の多様性を測定する「Vendiスコア」という指標は、平均で90%上昇している。メールアドレスの場合、活用ステップが18.60%から95.35%に、ウェブカラーコードは16.96%から62.49%に大幅に増加した。特に特定の単語を避けるルールでは、有効なすべての回答ステップを活用することに成功している。このように多様性が大幅に向上したにもかかわらず、処理速度は従来手法の平均88.8%の水準を維持した。追加の処理プロセスが必要となるため若干の遅延は生じるが、多様性の向上を考慮すれば十分に許容できる範囲内であると結論付けている。
研究チームは、AIの創造性を高めるパラメータをさらに引き上げた状態で追加実験を行った。従来の手法でも多様性は若干改善されたが、新しい手法はすべての測定項目において依然として優位性を示している。興味深いことに、新手法の多様性指標は基本設定に対してわずかに減少したが、これは創造性の設定と新しい手法による誘導機能が互いに競合しているためであると分析されている。
回答の品質面においても重要な知見が得られた。特定の単語を避けるルールで作成された回答の自然さを分析した結果、創造性の設定を高めた際に従来の手法では回答が極めて不自然になったが、新しい手法は基本設定において多様性と自然さのより高い次元でのバランスを維持した。各構成要素の役割を分析した結果、加点、減点、自動調整という3つの核心機能がいずれも不可欠な役割を果たしていた。加点を除外すると性能が従来手法を下回り、減点を除外すると回答生成プロセスが不安定になり、適切な回答をほとんど生成できなくなったという。
研究チームは、実際の活用事例としてオープンソースのプログラムライブラリをテストする実験を実施した。メール検証プログラムとウェブカラー変換プログラムを対象に、生成されたテストデータがプログラムコードをどれだけ検証するかを測定している。新手法で作成されたテストデータは、メール検証プログラムで46.19%から約13ポイント増の59.08%へ、ウェブカラー変換プログラムでは78.04%から約5ポイント増の83.18%へと上昇した。
これは、多様な形式を含むテストデータがソフトウェアのより広範な部分を実行し、潜在的なエラーを発見する上で効果的であることを証明している。例えば、ルール上は正当であるが、プログラムの基本設定では許可されていない特殊なメール形式を生成することで、例外処理機能の検証が可能となった。
Q1. 定型化された回答生成の定義と、その重要性について教えてください。 A: 定型化された回答生成とは、AIがJSONやXMLといった所定の形式に従って回答を生成することを強制する技術を指します。自律型AIシステムや自動化プログラムでAIの回答を処理するためには正確な形式が不可欠であり、非常に重要な役割を担っています。
Q2. 従来の手法において、回答が似通ってしまう理由は何ですか。 A: AIは学習したデータに基づいて単語を予測するため、自然言語で頻繁に見られるパターンを選択する傾向があります。文法的には正しくても、あまり使用されない形式は学習データへの登場回数が少なく、ほとんど生成されません。従来の手法は文法の整合性のみを検査し、多様性を高める機能を持っていないことが原因です。
Q3. この新しい手法は、具体的にどのように活用できますか。 A: ソフトウェアテストにおいて、多様な特殊状況を含むテストデータを自動的に生成したり、自律型AIシステムが多角的な行動計画を立案するのを支援したりする際に活用可能です。また、機械学習のための学習用データの確保にも高い効果が期待されています。














コメント0