用語集

ワールドモデルズ

世界モデルが環境の動的特性を利用してAIに将来の状態を予測させる仕組みを探る。Ultralytics 予測AIに知覚機能を提供する方法を学ぶ。

「ワールドモデル」とは、AIシステムが環境の機能を内部的に表現する手法を指し、現在の観測と潜在的な行動に基づいて将来の状態や結果を予測することを可能にする。従来のモデル（画像分類など）が入力を出力に直接対応させるのとは異なり、ワールドモデルはシステムの根底にある力学、物理法則、因果関係を学習する。この概念は汎用人工知能（AGI）の進展において中核的である。なぜなら機械に「常識的」推論の形態を与え、現実世界で行動する前にシナリオを精神的にシミュレートすることを可能にするからだ。

世界モデルの背後にある仕組み

本質的に、世界モデルは人間の直感と同様に機能する。ボールを投げる際、風抵抗の方程式を計算するわけではない。脳は過去の経験に基づいて軌道をシミュレートする。同様に機械学習（ML）では、これらのモデルが高次元感覚データ（動画フレームなど）をコンパクトな潜在状態に圧縮する。この圧縮状態により、エージェントは潜在的な未来を効率的に「夢想」または幻視できる。

HaとSchmidhuberによる再帰的ワールドモデルの研究など、最先端の研究は、エージェントがシミュレートされた夢の環境内で完全にポリシーを学習できることを実証している。より最近では、OpenAIのSoraのような生成AIの進歩が、物理法則、照明、物体の恒常性を理解して一貫性のある動画連続性を生成する、視覚的なワールドモデリングの形を示している。

ロボティクスとシミュレーションにおける応用

世界モデルは、複雑な意思決定を必要とする分野において特に変革をもたらす。

自動運転車：自動運転車は世界モデルを用いて他のドライバーや歩行者の行動を予測する。毎秒数千もの潜在的な交通シナリオをシミュレートすることで、車両は最も安全な経路を選択できる。これは自動車ソリューションにおけるコンピュータービジョンと密接に関連しており、正確な知覚が予測の基盤となる。
ロボティクス： 製造用ロボティクスにおいて、世界モデルで訓練されたロボットアームは、再訓練を必要とせずに新規の物体や予期せぬ障害物に適応できる。把持と運動の物理的原理を理解することで、スマート製造ソリューションを向上させる。

世界モデル対標準強化学習

世界モデルを標準的なアプローチと区別することは有益である：

ワールドモデル対強化学習（RL）： 従来のRLはしばしば「モデルフリー」であり、エージェントが環境内で純粋に試行錯誤を通じて学習することを意味する。ワールドモデルアプローチは「モデルベース」であり、エージェントが学習用のシミュレータを構築することで、必要な現実世界との相互作用量を大幅に削減する。
ワールドモデル対大規模言語モデル（LLM）： LLMが次のテキストトークンを予測するのに対し、ワールドモデルは次の視覚フレームや状態を予測することが多い。しかし、マルチモーダル学習の台頭により境界は曖昧になりつつある。この学習ではモデルがテキスト、視覚、物理学を統合する。

実践的実装の概念

完全な世界モデルを構築することは複雑だが、その基礎概念は将来の状態を予測することに依存している。コンピュータビジョンタスクにおいては、Ultralytics 高速検出モデルが感覚器官としての「目」として機能し、観察結果を意思決定ロジックに供給する。

Python 、YOLO （オブジェクトの位置）を抽出する方法を示しています。この抽出結果は、ワールドモデルの予測ステップへの入力として機能します。

from ultralytics import YOLO

# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding boxes (xyxy) representing object states
for result in results:
    boxes = result.boxes.xyxy.cpu().numpy()
    print(f"Observed State (Object Positions): {boxes}")
    # A World Model would take these 'boxes' to predict the NEXT frame's state

予測AIの未来

世界モデルの進化は物理AIへと向かっている。デジタル知能が物理世界とシームレスに相互作用する領域だ。ヤン・ルカンのJEPA（Joint Embedding Predictive Architecture）のような革新技術は、各ピクセルを予測する代わりに抽象的な表現を学習することを提案し、モデルを大幅に効率化している。

これらのアーキテクチャが成熟するにつれ、Ultralytics 統合が進み、開発者はdetect だけでなく、動的環境内での軌跡予測や相互作用の予測も可能になると見込まれます。静的検出から動的予測へのこの移行は、コンピュータビジョン（CV）における次の大きな飛躍を意味します。

ワールドモデルズ

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

世界モデルの背後にある仕組み

ロボティクスとシミュレーションにおける応用

世界モデル対標準強化学習

実践的実装の概念

予測AIの未来

このカテゴリの関連記事

mAP を改善する方法：クイックガイド

コンピュータービジョンによる生物多様性監視の再定義

エッジとクラウドでYOLO26を効率的に展開するための5つのポイント

Ultralytics コミュニティに参加する