世界モデルが環境の動的特性を利用してAIに将来の状態を予測させる仕組みを探る。Ultralytics 予測AIに知覚機能を提供する方法を学ぶ。
「ワールドモデル」とは、AIシステムが環境の機能を内部的に表現する手法を指し、 現在の観測と潜在的な行動に基づいて将来の状態や結果を予測することを可能にする。 従来のモデル(画像分類など)が 入力を出力に直接対応させるのとは異なり、 ワールドモデルはシステムの根底にある力学、 物理法則、因果関係を学習する。 この概念は汎用人工知能(AGI)の進展において 中核的である。 なぜなら機械に「常識的」推論の形態を与え、 現実世界で行動する前に シナリオを精神的にシミュレートすることを可能にするからだ。
本質的に、世界モデルは人間の直感と同様に機能する。ボールを投げる際、風抵抗の方程式を計算するわけではない。脳は過去の経験に基づいて軌道をシミュレートする。同様に機械学習(ML)では、これらのモデルが高次元感覚データ(動画フレームなど)をコンパクトな潜在状態に圧縮する。この圧縮状態により、エージェントは潜在的な未来を効率的に「夢想」または幻視できる。
HaとSchmidhuberによる再帰的ワールドモデルの研究など、最先端の研究は、エージェントがシミュレートされた夢の環境内で完全にポリシーを学習できることを実証している。より最近では、OpenAIのSoraのような生成AIの進歩が、物理法則、照明、物体の恒常性を理解して一貫性のある動画連続性を生成する、視覚的なワールドモデリングの形を示している。
世界モデルは、複雑な意思決定を必要とする分野において特に変革をもたらす。
世界モデルを標準的なアプローチと区別することは有益である:
完全な世界モデルを構築することは複雑だが、その基礎概念は将来の状態を予測することに依存している。 コンピュータビジョンタスクにおいては、Ultralytics 高速検出モデルが 感覚器官としての「目」として機能し、 観察結果を意思決定ロジックに供給する。
Python 、YOLO (オブジェクトの位置)を抽出する方法を示しています。 この抽出結果は、ワールドモデルの予測ステップへの入力として機能します。
from ultralytics import YOLO
# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding boxes (xyxy) representing object states
for result in results:
boxes = result.boxes.xyxy.cpu().numpy()
print(f"Observed State (Object Positions): {boxes}")
# A World Model would take these 'boxes' to predict the NEXT frame's state
世界モデルの進化は物理AIへと向かっている。 デジタル知能が物理世界とシームレスに相互作用する領域だ。 ヤン・ルカンのJEPA(Joint Embedding Predictive Architecture)のような革新技術は、 各ピクセルを予測する代わりに抽象的な表現を学習することを提案し、 モデルを大幅に効率化している。
これらのアーキテクチャが成熟するにつれ、Ultralytics 統合が進み、開発者はdetect だけでなく、動的環境内での軌跡予測や相互作用の予測も可能になると見込まれます。静的検出から動的予測へのこの移行は、コンピュータビジョン(CV)における次の大きな飛躍を意味します。