用語集

世界モデル

ワールドモデルが環境をシミュレートして将来の結果を予測する仕組みを探求しましょう。自動運転と高度なロボティクスにおいて、Ultralytics 強化する方法について学びます。

ワールドモデルは、その環境の包括的なシミュレーションを学習し、世界が時間とともにどのように進化するか、そして自身の行動がその未来にどのように影響するかを予測するように設計された高度な人工知能システムである。画像の分類など、静的な入力と出力を対応付けることに焦点を当てる従来の予測モデリングとは異なり、ワールドモデルはシーンの因果的ダイナミクスを理解しようとする。観察したデータの物理法則、論理構造、時間的順序を内部化することで、潜在的な結果を事前にシミュレートできる。この能力は人間のメンタルモデルに類似しており、 AIが複雑なタスクの計画や現実的な動画コンテンツ生成のために、未来のシナリオを「夢想」または視覚化することを可能にする。

静的な認識を超えて

ワールドモデルの中核となる革新性は、時間と因果関係について推論する能力にある。標準的なコンピュータビジョンタスクでは、Ultralytics モデルが単一フレーム内の物体検出に優れている。しかしワールドモデルはこれをさらに発展させ、それらの物体が次のフレームでどこに存在するかを予測する。この静的認識から動的予測への転換は、自律走行車両や高度なロボット工学の開発において極めて重要である。

OpenAIのSoraテキストから動画生成モデルなどの最近のブレークスルーは、ワールドモデルの生成能力を実証している。光、運動、幾何学の相互作用を理解することで、これらのシステムは単純なテキストプロンプトから極めて現実的な環境を幻視できる。同様に強化学習の領域では、エージェントがこれらの内部シミュレーションを活用し、現実世界で危険なタスクに挑戦する前に仮想空間で安全に訓練を行う。これによりAIの安全性と効率性が大幅に向上する。

ワールドモデル対ファウンデーションモデル

世界モデルを他の広範なAIカテゴリーと区別することは有益である。

ワールドモデル対ファウンデーションモデル： ファウンデーションモデルとは、膨大なデータ（GPT-4など）で訓練された汎用モデルである。ワールドモデルは、環境の動的挙動と時間的一貫性をシミュレートするために特別に設計された、特定の種類のファウンデーションモデル、あるいはその内部コンポーネントであることが多い。
ワールドモデル対大規模言語モデル（LLM）：大規模言語モデル（LLM）が言語パターンに基づいて次のテキストトークンを予測するのに対し、ワールドモデルは物理的・空間的ルールに基づいて世界の次の「状態」（多くの場合、動画フレームや感覚データ）を予測します。

実際のアプリケーション

ワールドモデルの有用性は、娯楽動画の作成をはるかに超えています。これらは複雑な意思決定を必要とする産業において不可欠な要素となりつつあります。

自動運転： Waymoのような自動運転車企業は、ワールドモデルを活用して数百万の運転シナリオをシミュレートしている。車両のAIは歩行者や他車両の軌道を予測し、現実であらゆる潜在的な事故を経験する必要なく、混雑した交差点を通る安全な経路を計画できる。
ロボティクスと製造： スマート製造において、ワールドモデルを搭載したロボットは、これまで見たことのない物体を操作できる。把持や持ち上げの物理特性をシミュレートすることで、ロボットは物体が滑ったり破損したりする可能性を予測し、リアルタイム推論ループで動作を適応させ、精度を確保する。

実践例：将来の状態の可視化

本格的なワールドモデルには膨大な計算能力が必要だが、将来のフレームを予測する概念は動画理解の原理を用いて説明できる。以下の例は、エージェント（またはモデル）が物体の動きtrack 予測し始める環境の構築方法を示す。これは予測可能な世界観を構築する基礎的なステップである。

import cv2
from ultralytics import YOLO26

# Load the Ultralytics YOLO26 model to act as the perception engine
model = YOLO26("yolo26n.pt")

# Open a video source (0 for webcam or a video file path)
cap = cv2.VideoCapture(0)

while cap.isOpened():
    success, frame = cap.read()
    if not success:
        break

    # The 'track' mode maintains object identity over time,
    # a prerequisite for learning object dynamics
    results = model.track(frame, persist=True)

    # Visualize the tracking, showing how the model follows movement
    annotated_frame = results[0].plot()

    cv2.imshow("Object Tracking Stream", annotated_frame)
    if cv2.waitKey(1) & 0xFF == ord("q"):
        break

cap.release()
cv2.destroyAllWindows()

予測AIの未来

ワールドモデルの開発は、汎用人工知能（AGI）への一歩を意味する。世界を効果的にモデル化する能力を習得することで、AIシステムは空間知能と物理的相互作用に関する一種の「常識」を獲得する。研究者らは現在、これらのモデルをより効率化するため Joint Embedding Predictive Architectures（JEPA）を模索している。全てのピクセルを生成する重い計算コストを回避し、代わりに高次元の特徴予測に焦点を当てる。これらの技術が成熟するにつれ、 Ultralytics より深い統合が期待でき、開発者は世界を「見る」だけでなく真に理解するエージェントを訓練できるようになるだろう。

世界モデル

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

静的な認識を超えて

ワールドモデル対ファウンデーションモデル

実際のアプリケーション

実践例：将来の状態の可視化

予測AIの未来

このカテゴリの関連記事

mAP を改善する方法：クイックガイド

コンピュータービジョンによる生物多様性監視の再定義

エッジとクラウドでYOLO26を効率的に展開するための5つのポイント

Ultralytics コミュニティに参加する