メインメニューへスキップ(上段) メインコンテンツへスキップ メインメニューへスキップ(下段)

何でも作れるはずのAIの嘘、なぜ同じ答えしか出なかったのか答えを見つけた

梶原圭介 アクセス  

引用:AI生成画像
引用:AI生成画像

大規模AI言語モデルがJSONのような定められた形式で回答を生成する際、文法的には正しいものの、似通った回答を繰り返すという課題が新たな研究で確認された。中国の北京大学の研究チームは、この課題を解決するためにAIが回答を作成するプロセスを追跡し、あまり使用されていない回答方法を選択するよう誘導する新手法を開発した。この技術は、回答の多様性を大幅に向上させつつ、処理速度は従来の約88.8%の水準を維持している。

ある論文によると、研究チームは現在広く普及している「Outline」というAIツールを用いて検証を行った。メールアドレスとウェブカラーコードを生成するルールを定め、それぞれ1,000件ずつの回答を求めた結果、驚くべき事実が判明している。メールアドレスの場合、AIが活用可能な全回答方法のわずか18.60%しか活用されず、ウェブカラーコードではさらに顕著で、16.96%にとどまった。

つまり、AIは文法的に生成可能な多様な回答のうち、極めて限定的な一部のみを繰り返し生成していたことになる。例えば、メールアドレスで二重引用符を使用する特殊な形式や、ウェブカラーにおけるHSLという表現方法は全く生成されなかった。研究チームがAIの創造性を高めるパラメータを調整しても、状況に大きな改善は見られなかった。メールアドレスの多様性が23.26%にわずかに上昇しただけで、依然として大半の可能な形式は使用されないままであった。

研究チームが開発した新手法の核心は、AIが回答を作成する過程を継続的に記録し、その記録に基づいてAIが過去にあまり使用していない方法を選択するよう誘導する点にある。具体的には、AIが回答生成時に辿ったすべてのステップを包括的に追跡する。そして、相対的に使用頻度が低いルートに加点を与え、AIが新しい形式の回答を探索することを促している。

しかし、単に加点を与えるだけでは、AIが同一の箇所を繰り返し循環する問題が生じる可能性がある。これを防ぐため、研究チームは一度の回答生成プロセスにおける各ステップの訪問回数も個別に記録した。頻繁に訪れたステップを再び選択する場合には減点を与えている。さらに、状況に応じて加点と減点の強度を自動調整する機能も追加し、過度な調整を防止している。

研究チームは、メールアドレス、ウェブカラーコード、JSON形式のデータ、特定の単語を回避する回答という4つのルールで新手法を検証した。アリババの「Qwen 2.5」を使用して各ルールごとに1,000件ずつの回答を生成した結果、従来の手法と比較して、平均的にAIが活用する回答ステップが45%、ステップ間の移動方法が12%、全体の回答ルートが40%増加した。

回答内容の多様性を測定する「Vendiスコア」という指標は、平均で90%上昇している。メールアドレスの場合、活用ステップが18.60%から95.35%に、ウェブカラーコードは16.96%から62.49%に大幅に増加した。特に特定の単語を避けるルールでは、有効なすべての回答ステップを活用することに成功している。このように多様性が大幅に向上したにもかかわらず、処理速度は従来手法の平均88.8%の水準を維持した。追加の処理プロセスが必要となるため若干の遅延は生じるが、多様性の向上を考慮すれば十分に許容できる範囲内であると結論付けている。

研究チームは、AIの創造性を高めるパラメータをさらに引き上げた状態で追加実験を行った。従来の手法でも多様性は若干改善されたが、新しい手法はすべての測定項目において依然として優位性を示している。興味深いことに、新手法の多様性指標は基本設定に対してわずかに減少したが、これは創造性の設定と新しい手法による誘導機能が互いに競合しているためであると分析されている。

回答の品質面においても重要な知見が得られた。特定の単語を避けるルールで作成された回答の自然さを分析した結果、創造性の設定を高めた際に従来の手法では回答が極めて不自然になったが、新しい手法は基本設定において多様性と自然さのより高い次元でのバランスを維持した。各構成要素の役割を分析した結果、加点、減点、自動調整という3つの核心機能がいずれも不可欠な役割を果たしていた。加点を除外すると性能が従来手法を下回り、減点を除外すると回答生成プロセスが不安定になり、適切な回答をほとんど生成できなくなったという。

研究チームは、実際の活用事例としてオープンソースのプログラムライブラリをテストする実験を実施した。メール検証プログラムとウェブカラー変換プログラムを対象に、生成されたテストデータがプログラムコードをどれだけ検証するかを測定している。新手法で作成されたテストデータは、メール検証プログラムで46.19%から約13ポイント増の59.08%へ、ウェブカラー変換プログラムでは78.04%から約5ポイント増の83.18%へと上昇した。

これは、多様な形式を含むテストデータがソフトウェアのより広範な部分を実行し、潜在的なエラーを発見する上で効果的であることを証明している。例えば、ルール上は正当であるが、プログラムの基本設定では許可されていない特殊なメール形式を生成することで、例外処理機能の検証が可能となった。

Q1. 定型化された回答生成の定義と、その重要性について教えてください。 A: 定型化された回答生成とは、AIがJSONやXMLといった所定の形式に従って回答を生成することを強制する技術を指します。自律型AIシステムや自動化プログラムでAIの回答を処理するためには正確な形式が不可欠であり、非常に重要な役割を担っています。

Q2. 従来の手法において、回答が似通ってしまう理由は何ですか。 A: AIは学習したデータに基づいて単語を予測するため、自然言語で頻繁に見られるパターンを選択する傾向があります。文法的には正しくても、あまり使用されない形式は学習データへの登場回数が少なく、ほとんど生成されません。従来の手法は文法の整合性のみを検査し、多様性を高める機能を持っていないことが原因です。

Q3. この新しい手法は、具体的にどのように活用できますか。 A: ソフトウェアテストにおいて、多様な特殊状況を含むテストデータを自動的に生成したり、自律型AIシステムが多角的な行動計画を立案するのを支援したりする際に活用可能です。また、機械学習のための学習用データの確保にも高い効果が期待されています。

コメント0

300

コメント0

[IT・テック] ランキング

  • ブラック派がついに揺れるのか…iPhone18 Pro新色「ダークチェリー」に早くも本命説
  • 中国で世界初のロボット学校が開校…「ヒューマノイドも学校へ行く時代」に
  • 「AIバブルか、本物か」…孫正義がフランスに約13兆円を投じる“巨大計画”
  • AIデータセンターは本当に“電気を食う施設”なのか…米軍元中将が語った意外な役割
  • 「AIリストラ」は本当に避けられないのか…半導体王が経営者の“言い訳”を一刀両断
  • 「パスワードはもう危ない」…英情報トップが警告した中露スパイ戦の“次の標的”

こんな記事も読まれています

  • 生産中止から4年…WRX STIに“復活シグナル”、試されるのはファンの熱量?
  • 「大径ホイールの罠?」見た目は最強でも、ポットホール一発で財布が割れる
  • 「一般トヨタ店では買えない」GR GT、販売は“厳選レクサス店”に集約へ?
  • GM車3,500台がリコール対象、欠けていたのは説明書1冊
  • 米国が対EU追加関税推進、強制労働規制巡り対立激化
  • トランプ氏がイラン新指導者評価転換、海上封鎖解除に含み
  • 活動休止を経た元BIGBANGメンバー、横浜で約1万人規模の“無料ファンミーティング”開催
  • 恋人のプライベート映像の流出を防ぐために大麻事件を起こした? 23年ぶりに噂を完全否定「事実無根」

こんな記事も読まれています

  • 生産中止から4年…WRX STIに“復活シグナル”、試されるのはファンの熱量?
  • 「大径ホイールの罠?」見た目は最強でも、ポットホール一発で財布が割れる
  • 「一般トヨタ店では買えない」GR GT、販売は“厳選レクサス店”に集約へ?
  • GM車3,500台がリコール対象、欠けていたのは説明書1冊
  • 米国が対EU追加関税推進、強制労働規制巡り対立激化
  • トランプ氏がイラン新指導者評価転換、海上封鎖解除に含み
  • 活動休止を経た元BIGBANGメンバー、横浜で約1万人規模の“無料ファンミーティング”開催
  • 恋人のプライベート映像の流出を防ぐために大麻事件を起こした? 23年ぶりに噂を完全否定「事実無根」

おすすめニュース

  • 1
    中国EV、“冬の弱点”克服へ一歩か…BYDが極寒で見せた「12分で97%充電」

    モビリティー 

  • 2
    銅価格高騰で水道メーター窃盗急増、各地で被害拡大

    トレンド 

  • 3
    「レース中にエンジンごと替えろ!」トヨタの実戦開発哲学、ニュルで世界が目撃した

    モビリティー 

  • 4
    「4WDは車を無敵にする魔法じゃない!」専門家が怒る、ドライバーの思い込みとその代償

    モビリティー 

  • 5
    「カーナビ中に高温警告」スマホを車に繋ぐと熱くなる、Android Autoの落とし穴

    モビリティー 

話題

  • 1
    中国企業ベンツは米国から出ていけ?!」ベンツを襲う中国株の影

    モビリティー 

  • 2
    「カローラを27年つくった工場が止まる」トヨタが選んだ一点集中

    モビリティー 

  • 3
    「AIが奪ったのではない?」…若者を採らない会社が増える“リモートワーク時代”の落とし穴

    トレンド 

  • 4
    ポールスター5、884PSでタイカンの牙城に挑む 北欧の新星は"本物"か?

    モビリティー 

  • 5
    ホンダ系ディーラー、下請け整備業者に車両運搬を無償強要…公取委が勧告方針

    モビリティー 

シェア

[cosmosfarm_share_buttons url="https://dailyview.net" title="ピッコン" align="center"]