
主要な人工知能(AI)チャットボットの中で、検索ツールとして最も正確な情報を提供するのはグーグルの「AIモード」であることが明らかになった。これは、米国の有力紙ワシントン・ポストが司書の専門家と共に実施した比較実験の結果に基づいている。
今回のテストでは、グーグルのAIモードとAIオーバービュー、オープンAIのチャットGPT、Anthropicのクロード、メタAI、イーロン・マスク氏が設立したxAIのグロック、マイクロソフトのBing Copilot、検索に特化したAIサービスのPerplexityなど、計9種類のAI検索ツールが評価対象となった。チャットGPTについては、最新モデルのGPT-5とGPT-4 Turboの両方が評価に含まれた。
評価は2025年7月から8月にかけて、無料で提供される基本バージョンに限って実施された。質問は、クイズ形式の短答問題から時事ニュース、バイアスの判断、画像認識まで、実際の検索シーンを反映した5つのカテゴリーで構成された。各モデルは合計30問に対する900の回答を基に採点された。
結果、グーグルのAIモードが100点満点中60.2点を獲得し、首位に立った。チャットGPTのGPT-5モデルが55.1点で2位、Perplexityが51.3点で3位となった。一方、メタAIは33.7点と最低点を記録した。イーロン・マスクが開発したグロックシリーズのうち、テスト対象となったグロック3は40.1点で8位に留まり、最新モデルのグロック4は無料版がないため調査対象から除外された。
カテゴリー別では、グーグルのAIモードが最新トピックとクイズで優位性を示し、専門的な参考資料を求める質問ではBing Copilotが高評価を得た。Perplexityは画像分析で際立ち、GPT-4 Turboは比較的中立的で偏りの少ない回答を提供したと評価された。
ワシントン・ポストは、この実験を通じてAIシステムの限界も明確になったと指摘した。一部のAIは最新情報や情報源の信頼性を判断するのに苦戦し、誤った情報を自信を持って回答するケースもあった。結局、AIが提示する内容を鵜呑みにするのではなく、図書館司書のように情報源を検証し、批判的に考えることの重要性が実験の重要な示唆として残った。
このような傾向は、今後のAI検索技術の発展方向に大きな示唆を与える可能性がある。今後は情報の正確さだけでなく、信頼できる情報源に基づく文脈提供能力によって、AIシステム間の差異がより顕著になると予想される。
コメント0