OpenAIがAnthropicと主導権競争に突入
性能指標で「Opus 4.7」より大半の項目で優位に立つ

OpenAIが2か月ぶりに新たな人工知能(AI)モデルを発表し、Anthropicとの主導権争いに乗り出した。
OpenAIは23日(現地時間)、新AIモデル「GPT-5.5」を公開し、「これまでで最も賢く、直感的に使用できるモデル」と紹介した。
OpenAIが公開した性能指標(ベンチマーク)レポートによると、GPT-5.5は多くの領域でAnthropicの主力モデル「Claude Opus 4.7」を上回るスコアを獲得した。
まず、知識業務の遂行能力を評価する「GDPval」指標で84.9%を記録し、80.3%にとどまったOpus 4.7を上回った。ターミナル環境での作業能力を測定する「Terminal-Bench 2.0」では82.7%を記録し、Opus 4.7(69.4%)を10ポイント以上上回った。サイバーセキュリティ能力を評価する「CyberGym」でも81.8%でOpus 4.7の73.1%を上回った。
ただし、情報技術(IT)業界で最も需要が高いコーディング部門の指標「SWE-Bench Pro」では58.6%にとどまり、Opus 4.7の64.3%に及ばなかった。これについてOpenAIは「Anthropicのモデルにはデータ記憶の兆候が報告された」とし、評価結果を認めない立場を示した。
OpenAI側はこの日のオンラインブリーフィングで、Anthropicのミトス(Mythos)の性能を比較する質問に「モデルは非常に正確だ」とし、性能指標を確認するよう促した。OpenAIは特にGPT-5.5がエージェント型の処理により適するよう、自律性と直感性を高めたと強調した。
OpenAIのグレッグ・ブロックマン社長は「このモデルの真に特別な点は、より少ない指示でより多くのことができること」だとし、「不明確な問題を見て次に何をすべきかを自ら把握する」と説明した。そして「私にとって、これは今後のコンピュータの使用方法と大規模エージェント型処理の機能の基礎を築くものに感じられる」と述べた。













コメント0