メインメニューへスキップ(上段) メインコンテンツへスキップ メインメニューへスキップ(下段)

何でも作れるはずのAIの嘘、なぜ同じ答えしか出なかったのか答えを見つけた

梶原圭介 アクセス  

引用:AI生成画像
引用:AI生成画像

大規模AI言語モデルがJSONのような定められた形式で回答を生成する際、文法的には正しいものの、似通った回答を繰り返すという課題が新たな研究で確認された。中国の北京大学の研究チームは、この課題を解決するためにAIが回答を作成するプロセスを追跡し、あまり使用されていない回答方法を選択するよう誘導する新手法を開発した。この技術は、回答の多様性を大幅に向上させつつ、処理速度は従来の約88.8%の水準を維持している。

ある論文によると、研究チームは現在広く普及している「Outline」というAIツールを用いて検証を行った。メールアドレスとウェブカラーコードを生成するルールを定め、それぞれ1,000件ずつの回答を求めた結果、驚くべき事実が判明している。メールアドレスの場合、AIが活用可能な全回答方法のわずか18.60%しか活用されず、ウェブカラーコードではさらに顕著で、16.96%にとどまった。

つまり、AIは文法的に生成可能な多様な回答のうち、極めて限定的な一部のみを繰り返し生成していたことになる。例えば、メールアドレスで二重引用符を使用する特殊な形式や、ウェブカラーにおけるHSLという表現方法は全く生成されなかった。研究チームがAIの創造性を高めるパラメータを調整しても、状況に大きな改善は見られなかった。メールアドレスの多様性が23.26%にわずかに上昇しただけで、依然として大半の可能な形式は使用されないままであった。

研究チームが開発した新手法の核心は、AIが回答を作成する過程を継続的に記録し、その記録に基づいてAIが過去にあまり使用していない方法を選択するよう誘導する点にある。具体的には、AIが回答生成時に辿ったすべてのステップを包括的に追跡する。そして、相対的に使用頻度が低いルートに加点を与え、AIが新しい形式の回答を探索することを促している。

しかし、単に加点を与えるだけでは、AIが同一の箇所を繰り返し循環する問題が生じる可能性がある。これを防ぐため、研究チームは一度の回答生成プロセスにおける各ステップの訪問回数も個別に記録した。頻繁に訪れたステップを再び選択する場合には減点を与えている。さらに、状況に応じて加点と減点の強度を自動調整する機能も追加し、過度な調整を防止している。

研究チームは、メールアドレス、ウェブカラーコード、JSON形式のデータ、特定の単語を回避する回答という4つのルールで新手法を検証した。アリババの「Qwen 2.5」を使用して各ルールごとに1,000件ずつの回答を生成した結果、従来の手法と比較して、平均的にAIが活用する回答ステップが45%、ステップ間の移動方法が12%、全体の回答ルートが40%増加した。

回答内容の多様性を測定する「Vendiスコア」という指標は、平均で90%上昇している。メールアドレスの場合、活用ステップが18.60%から95.35%に、ウェブカラーコードは16.96%から62.49%に大幅に増加した。特に特定の単語を避けるルールでは、有効なすべての回答ステップを活用することに成功している。このように多様性が大幅に向上したにもかかわらず、処理速度は従来手法の平均88.8%の水準を維持した。追加の処理プロセスが必要となるため若干の遅延は生じるが、多様性の向上を考慮すれば十分に許容できる範囲内であると結論付けている。

研究チームは、AIの創造性を高めるパラメータをさらに引き上げた状態で追加実験を行った。従来の手法でも多様性は若干改善されたが、新しい手法はすべての測定項目において依然として優位性を示している。興味深いことに、新手法の多様性指標は基本設定に対してわずかに減少したが、これは創造性の設定と新しい手法による誘導機能が互いに競合しているためであると分析されている。

回答の品質面においても重要な知見が得られた。特定の単語を避けるルールで作成された回答の自然さを分析した結果、創造性の設定を高めた際に従来の手法では回答が極めて不自然になったが、新しい手法は基本設定において多様性と自然さのより高い次元でのバランスを維持した。各構成要素の役割を分析した結果、加点、減点、自動調整という3つの核心機能がいずれも不可欠な役割を果たしていた。加点を除外すると性能が従来手法を下回り、減点を除外すると回答生成プロセスが不安定になり、適切な回答をほとんど生成できなくなったという。

研究チームは、実際の活用事例としてオープンソースのプログラムライブラリをテストする実験を実施した。メール検証プログラムとウェブカラー変換プログラムを対象に、生成されたテストデータがプログラムコードをどれだけ検証するかを測定している。新手法で作成されたテストデータは、メール検証プログラムで46.19%から約13ポイント増の59.08%へ、ウェブカラー変換プログラムでは78.04%から約5ポイント増の83.18%へと上昇した。

これは、多様な形式を含むテストデータがソフトウェアのより広範な部分を実行し、潜在的なエラーを発見する上で効果的であることを証明している。例えば、ルール上は正当であるが、プログラムの基本設定では許可されていない特殊なメール形式を生成することで、例外処理機能の検証が可能となった。

Q1. 定型化された回答生成の定義と、その重要性について教えてください。 A: 定型化された回答生成とは、AIがJSONやXMLといった所定の形式に従って回答を生成することを強制する技術を指します。自律型AIシステムや自動化プログラムでAIの回答を処理するためには正確な形式が不可欠であり、非常に重要な役割を担っています。

Q2. 従来の手法において、回答が似通ってしまう理由は何ですか。 A: AIは学習したデータに基づいて単語を予測するため、自然言語で頻繁に見られるパターンを選択する傾向があります。文法的には正しくても、あまり使用されない形式は学習データへの登場回数が少なく、ほとんど生成されません。従来の手法は文法の整合性のみを検査し、多様性を高める機能を持っていないことが原因です。

Q3. この新しい手法は、具体的にどのように活用できますか。 A: ソフトウェアテストにおいて、多様な特殊状況を含むテストデータを自動的に生成したり、自律型AIシステムが多角的な行動計画を立案するのを支援したりする際に活用可能です。また、機械学習のための学習用データの確保にも高い効果が期待されています。

梶原圭介
//= the_author_meta('email'); ?>editor@kangnamtimes.com

コメント0

300

コメント0

[IT・テック] ランキング

  • 「薄さとデザイン最優先!」“iPhone Fold”最終形が流出 “デザインのアップル”、名誉回復なるか?
  • 「画像生成で首位逆転」ChatGPT新モデルで速度4倍、Geminiを上回る評価!
  • 「次の戦場は虫が制する?」放射線にも死なない“ゴキブリ諜報員”の異常進化
  • 「Face IDを捨てた」アップル初の折りたたみiPhone、設計思想が一変
  • 「テスラ株、年初来高値を更新!」無人走行テスト進行で株価急伸、“史上最高値”も視野に
  • 「人間の経験と勘は不要?」20年分の“味覚データ”を学習したAIが“ビール設計”、ついに量産段階へ!

こんな記事も読まれています

  • 見えない凍結が最も危険、ブラックアイスバーンの正体
  • 冬の雪道安全運転ガイド、スノータイヤと制動の基本
  • 「5秒の確認で防げる」冬に危険なバッテリーの色サイン
  • 「技術をすべて受け入れる」トヨタ・日産、中国市場で生き残るための決断
  • 「中国、危険な一線を越えた」映画の蛇ブームで毒蛇販売が爆発…日常崩壊は”自業自得”か
  • 「中国政府が隠した真実」…“天安門鎮圧”拒否した中国司令官、裁判映像がYouTubeで124万回再生!
  • 「米軍ヘリと民間機衝突で67人死亡」…米上院、事故の教訓で軍用機の“位置自動送信”を義務化へ!
  • 【四面楚歌】トランプ経済運営に国民がNO!生活費高騰で支持率は“過去最低更新”

こんな記事も読まれています

  • 見えない凍結が最も危険、ブラックアイスバーンの正体
  • 冬の雪道安全運転ガイド、スノータイヤと制動の基本
  • 「5秒の確認で防げる」冬に危険なバッテリーの色サイン
  • 「技術をすべて受け入れる」トヨタ・日産、中国市場で生き残るための決断
  • 「中国、危険な一線を越えた」映画の蛇ブームで毒蛇販売が爆発…日常崩壊は”自業自得”か
  • 「中国政府が隠した真実」…“天安門鎮圧”拒否した中国司令官、裁判映像がYouTubeで124万回再生!
  • 「米軍ヘリと民間機衝突で67人死亡」…米上院、事故の教訓で軍用機の“位置自動送信”を義務化へ!
  • 【四面楚歌】トランプ経済運営に国民がNO!生活費高騰で支持率は“過去最低更新”

おすすめニュース

  • 1
    「整形はもうやめて、しっかりしなさい」活動休止中の芸人、過去の占い動画が再注目…男運・仕事運・精神状態まで

    エンタメ 

  • 2
    「限韓令の影響ではない」次回作オファー30本超の韓流スター、香港&台湾のファンミーティングを中止

    エンタメ 

  • 3
    「殴られて耳が聞こえなくなった」韓国人ダンサーのパワハラ疑惑…弟子への暴言問題に続き新証言

    エンタメ 

  • 4
    恋愛ソングの名手・コレサワ×K-POP♡UNIS「mwah…」に込めた恋心と小悪魔な本音

    エンタメ 

  • 5
    世界が注目する5人グループ!LE SSERAFIM、ビルボード7週連続ランクイン K-POPで週最高順位を記録

    エンタメ 

話題

  • 1
    知らない間に“広告塔”に…有名女性芸能人を狙う違法バナー広告? 企業側「意図せず表示された」

    エンタメ 

  • 2
    LE SSERAFIMやILLITのヒット曲制作に参加した“実力派”新人アイドル、音楽への信念とステージ愛を告白

    エンタメ 

  • 3
    「炎上商法?」新人ボーイズグループがBTSを揶揄しファン激怒、デビュー前から波乱

    エンタメ 

  • 4
    レギュラー降板は共演者からの要請だった?人気俳優との不仲説が浮上した国民的MC、小さなきっかけで飛び火

    エンタメ 

  • 5
    韓国大ヒット映画、イ・ビョンホン主演『しあわせな選択』 オスカー国際映画賞ショートリスト入り

    エンタメ