OpenAI、自律性を高めたGPT-5.5を公開…「最も賢く直感的」

OpenAIがAnthropicと主導権競争に突入
性能指標で「Opus 4.7」より大半の項目で優位に立つ

OpenAIが2か月ぶりに新たな人工知能（AI）モデルを発表し、Anthropicとの主導権争いに乗り出した。

OpenAIは23日（現地時間）、新AIモデル「GPT-5.5」を公開し、「これまでで最も賢く、直感的に使用できるモデル」と紹介した。

OpenAIが公開した性能指標（ベンチマーク）レポートによると、GPT-5.5は多くの領域でAnthropicの主力モデル「Claude Opus 4.7」を上回るスコアを獲得した。

まず、知識業務の遂行能力を評価する「GDPval」指標で84.9%を記録し、80.3%にとどまったOpus 4.7を上回った。ターミナル環境での作業能力を測定する「Terminal-Bench 2.0」では82.7%を記録し、Opus 4.7（69.4%）を10ポイント以上上回った。サイバーセキュリティ能力を評価する「CyberGym」でも81.8%でOpus 4.7の73.1%を上回った。

ただし、情報技術（IT）業界で最も需要が高いコーディング部門の指標「SWE-Bench Pro」では58.6%にとどまり、Opus 4.7の64.3%に及ばなかった。これについてOpenAIは「Anthropicのモデルにはデータ記憶の兆候が報告された」とし、評価結果を認めない立場を示した。

OpenAI側はこの日のオンラインブリーフィングで、Anthropicのミトス（Mythos）の性能を比較する質問に「モデルは非常に正確だ」とし、性能指標を確認するよう促した。OpenAIは特にGPT-5.5がエージェント型の処理により適するよう、自律性と直感性を高めたと強調した。

OpenAIのグレッグ・ブロックマン社長は「このモデルの真に特別な点は、より少ない指示でより多くのことができること」だとし、「不明確な問題を見て次に何をすべきかを自ら把握する」と説明した。そして「私にとって、これは今後のコンピュータの使用方法と大規模エージェント型処理の機能の基礎を築くものに感じられる」と述べた。