世界モデルを構成する3つのコンポーネント

 最初のコンポーネントは「視覚モデル(Vision Model)」で、画像や映像といった高次元の感覚データを、潜在空間(Latent Space)と呼ばれる内部表現に圧縮する役割を持つ。

 次の「記憶モデル(Memory Model)」は、現在の状態と行動に基づいて環境の未来の状態を予測する。そして「コントローラー(Controller)」が、予測された未来のシミュレーションの中で最適な行動を計画し、決定する。

 この3つが連携することで、AIが現実世界で実際に行動を起こす前に、自らの内部にある安全かつ高速なシミュレーション空間の中で「もしこの行動をとったらどうなるか」を繰り返しテストし、最適な行動を導き出すことが可能になる。

 こうした能力は、自動運転や産業用ロボットの分野で特に重要な意味を持つ。

 たとえば、英国の自動運転スタートアップWayveは、2025年12月2日に150億パラメータを持つ世界モデル「GAIA-3」を発表した。このモデルは、現実のテストコースでは再現が困難な「竜巻の発生」「雪道での急ブレーキ」「道路上のゾウとの遭遇」といった極めて稀な危険シナリオを高精細にシミュレーションし、自動運転車の安全性評価に活用している。

 現実世界で起こりうるあらゆる事態を内部でシミュレートし、事前に対応策を学習しておくことが、世界モデルの本質的な価値となっている。

 世界モデルの価値をより深く理解するには、現在のAI技術の主役であるLLM(大規模言語モデル)との違いを押さえておくことが不可欠だ。