
メタ・プラットフォームズが周囲環境の物理的な動きを理解することに特化した新しい人工知能(AI)モデルを公開した。AIが現実に近い仮想空間を構築し、物理的世界で人間とより類似した方法で学習し、決定できるようにすることに焦点を当てている。
ヒューマノイドロボットや自動運転車の開発用AIの需要が急激に高まり、ビッグテックのAI開発競争の中心が大規模言語モデル(LLM)からこのような「世界モデル(World Models)」に移行しているとの分析が出ている。
11日(現地時間)、メタは新しい世界モデル「V-JEPA2」を公開した。昨年初めて公開されたV-JEPAモデルの後続モデルで、100万時間以上の映像データで訓練された。言語ではなく映像で学習したため、AIは重力のような物理的世界の法則を理解し、未知の物体や環境と相互作用しながら作業を完了することができる。
メタは「長期的なビジョンは、AIエージェントがこのモデルを使って物理的世界で計画し、推論できるようにすることだ」とし、「V-JEPA2は人間の追加指示なしに映像を通じて自己学習するように訓練された」と説明した。
V-JEPA2はLLMではなく世界モデルだ。LLMは膨大なテキストデータに基づいて次に来る単語や文を予測することに最適化されている。一方、世界モデルはAIが世界の構造と規則を内面化し、実際に観察していない状況もシミュレーションを通じて予測できるように設計されている。幼い子どもが話し始める前からボールを空中に投げると地面に落ちることを理解するように、言語ではなく物理的な動きを中心に学習させたという。
メタの主席AI科学者であるヤン・ルカンは氏は「機械が物理的世界を理解することは、言語を理解することとは全く異なる」とし、「世界モデルはAIが世界を理解し、自らの行動結果を予測するための現実の抽象的な『デジタルツイン』のようなものだ」と語った。
オープンソースAI(人工知能)の先駆者であるメタの参入により、AI開発競争はLLMから世界モデル中心に移行している様相だ。特にヒューマノイドロボットや自動運転車のように物理的環境に対する理解と予測が必要な分野では必須であるため、需要も急速に高まっている。
グーグル・ディープマインドは昨年12月に自社の世界モデル「Genie」を開発し、市場に参入した。世界的なAIの権威とされるフェイフェイ・リ教授(スタンフォード大学)は昨年9月に大規模世界モデルを構築することを目指したスタートアップ「ワールド・ラボ」を設立し、2億3,000万ドル(約331億966万円)の投資を調達した。