世界モデルとLLMは何が違うか?

 ChatGPTやClaude、Geminiといったサービスの基盤となっているLLMは、インターネット上の膨大なテキストデータを学習し、統計的なパターンに基づいて「次に来る単語(トークン)」を予測することで動作する。この仕組みは文章の生成や要約、コーディング支援など、言語を介したタスクにおいて圧倒的な能力を発揮する。

 しかしながら、LLMには本質的な限界がある。「重力」という言葉がどのような文脈で使われるかは理解していても、物理現象としての重力を経験的に理解しているわけではない。そのため、物理的に不可能なシナリオを自信満々に生成する「ハルシネーション(幻覚)」を起こすという宿命的な問題を抱えている。

 かつてGoogleのAIが「毎日小さな石を1つ食べるのは良いことだ」と回答したり、「strawberry」という単語に含まれる「r」の数を数え間違えたりする事例は、この問題の典型例として知られている

 前述のヤン・ルカンはこうした限界を踏まえ、「LLMは言語を操れても、現実世界を理解しているわけではなく、猫よりも賢くない」と手厳しく指摘している

 これに対して世界モデルは、動画や3Dスキャン、センサーデータなどを通じて物理的な動きを学習し、物体の質量、重力、摩擦、オブジェクトの永続性といった物理的制約を内部で理解する。

 OpenAIが2025年9月30日にリリースした動画生成モデル「Sora 2」はその好例だ。それ以前のモデルでは、バスケットボールのシュートが外れた際にボールがリングにテレポートするような物理法則を無視した映像が生成されることがあったが、Sora 2ではボールがバックボードに当たって跳ね返るという物理法則に従った「失敗」を正確にモデル化できるようになった。

 両者の認知の性質の違いは、LLMが言語と記号に依存した「ブックスマート(本で得た知識)」であるのに対し、世界モデルは直感的な物理法則を理解する「ストリートスマート(街路で磨かれた知識)」であると表現されることが多い。

 そして重要なのは、両者は互いに排他的な技術ではなく、それぞれが異なる得意領域を持つ補完的な存在だという点だ。現在のAI開発の最前線では、両者を統合したシステムの実現こそが最終的な目標として見据えられている。

 世界モデルへの関心が急速に高まっている背景には、大きく4つの要因が重なったことが挙げられる。