主要な人工知能(AI)モデルを比較した試験の結果、検索機能で最も正確性が高かったのはグーグルの「AIモード」だと発表された。

27日(現地時間)、米紙ワシントン・ポスト(WP)は、米国の公共・大学図書館の司書らと共同で実施したAI検索ツールの試験で、グーグルの「AIモード」が最も正確な回答を出したと報じた。
試験は、グーグルのAIモード、AIオーバービュー、オープンAIのチャットGPT、Anthropicのクロード、メタAI、xAIのグロック、パープレキシティ、マイクロソフトのBingコパイロットなど9種類のAIツールを対象に実施された。チャットGPTはGPT-5とGPT-4ターボの2モデルを含んでいた。
30問を出題し、各AIツールが提供した計900件の回答を採点した。評価項目は、一般常識、専門資料の検索能力、最新の出来事への対応、偏見(固定観念や先入観)の有無、画像認識の5分野だった。
試験の結果、グーグルのAIモードが100点満点中60.2点を獲得し、首位となった。GPT-5を基盤とするチャットGPTは55.1点で2位、パープレキシティは51.3点で3位に位置した。これに対し、イーロン・マスクCEO率いるグロック3は40.1点で8位、メタAIは33.7点で最下位だった。
グーグルのAIモードは、一般常識と最新の出来事の分野で最も正確な回答を出した。専門資料の検索ではBingコパイロットが最も高い評価を得た一方、パープレキシティが最も不正確だった。
最新の出来事ではグーグルのAIモードが首位、メタAIが最低だった。偏見への対応では、チャットGPT-4ターボが最も中立的な回答を出し、メタAIが最大の弱点を露呈した。画像認識ではパープレキシティが最高得点を獲得し、メタAIが最下位にとどまった。
GPT-5は全体として性能を向上させ2位となったが、出典の明示や偏見への対応など一部の分野ではGPT-4よりも低い評価を受けた。
WPは、AIが誤った回答を自信を持って提示する場合があると指摘し、利用にあたっては出典の確認、情報の最新性の検証、批判的思考が不可欠だと強調した。
コメント0