YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

ワールドモデル

ワールドモデルが環境ダイナミクスを使用してAIが将来の状態を予測できるようにする方法を探ります。Ultralytics YOLO26が予測AIのための知覚をどのように提供するかを学びましょう。

「世界モデル」とは、AIシステムが環境の機能方法を内部的に表現したものであり、現在の観測と潜在的な行動に基づいて将来の状態や結果を予測することを可能にします。画像をclassifyするような、入力を直接出力にマッピングする従来のモデルとは異なり、世界モデルはシステムの根底にあるダイナミクス、物理、因果関係を学習します。この概念は、マシンに「常識」的な推論の一形態を与え、現実世界で行動する前にシナリオを精神的にシミュレートすることを可能にするため、汎用人工知能 (AGI)の進歩にとって極めて重要です。

ワールドモデルのメカニズム

その核となるのは、ワールドモデルが人間の直感と同様に機能することです。ボールを投げるとき、風の抵抗方程式を計算するのではなく、脳が過去の経験に基づいて軌道をシミュレートします。同様に、機械学習(ML)では、これらのモデルは高次元の感覚データ(ビデオフレームなど)をコンパクトな潜在状態に圧縮します。この圧縮された状態により、エージェントは潜在的な未来を効率的に「夢見たり」幻覚を見たりすることができます。

HaとSchmidhuberによるリカレントワールドモデルに関する研究のような最先端の研究は、エージェントがシミュレートされた夢の環境内で完全にポリシーを学習できることを示しています。より最近では、OpenAIのSoraのような生成AIの進歩は、システムが物理、照明、オブジェクトの永続性を理解して一貫したビデオの連続性を生成する、視覚的なワールドモデリングの一形態を表しています。

ロボット工学とシミュレーションにおけるアプリケーション

ワールドモデルは、複雑な意思決定を必要とする分野において特に変革をもたらします。

ワールドモデル vs. 標準的な強化学習

世界モデルを標準的なアプローチと区別することは有用です。

  • ワールドモデル vs. 強化学習 (RL): 従来のRLはしばしば「モデルフリー」であり、エージェントは環境内で試行錯誤のみを通じて学習します。ワールドモデルアプローチは「モデルベース」であり、エージェントは学習するためのシミュレーターを構築し、必要な実世界での相互作用の量を劇的に削減します。
  • ワールドモデル vs. 大規模言語モデル (LLM): LLMが次のテキストトークンを予測するのに対し、ワールドモデルは多くの場合、次の視覚フレームまたは状態を予測します。しかし、モデルがテキスト、視覚、物理を統合するマルチモーダル学習の台頭により、その境界線は曖昧になっています。

実践的な実装コンセプト

完全な世界モデルの構築は複雑ですが、その基本的な概念は将来の状態を予測することに依存します。コンピュータービジョンタスクでは、Ultralytics YOLO26のような高速detectモデルが、意思決定ロジックに観測結果を供給する感覚的な「目」として機能します。

以下のpythonスニペットは、YOLOモデルを使用して現在の状態(オブジェクトの位置)を抽出し、それをワールドモデルの予測ステップの入力として使用する方法を示しています。

from ultralytics import YOLO

# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding boxes (xyxy) representing object states
for result in results:
    boxes = result.boxes.xyxy.cpu().numpy()
    print(f"Observed State (Object Positions): {boxes}")
    # A World Model would take these 'boxes' to predict the NEXT frame's state

予測AIの未来

世界モデルの進化はフィジカルAIへと向かっており、デジタルインテリジェンスが物理世界とシームレスに相互作用します。Yann LeCunのJEPA (Joint Embedding Predictive Architecture)のようなイノベーションは、すべてのピクセルを予測するのではなく、抽象的な表現を学習することを提案しており、これによりモデルは大幅に効率化されます。

これらのアーキテクチャが成熟するにつれて、Ultralytics Platformに統合され、開発者がオブジェクトをdetectするだけでなく、動的な環境内での軌跡や相互作用を予測できるようになることが期待されます。この静的なdetectから動的な予測への移行は、コンピュータービジョン (CV)における次の大きな飛躍を示します。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。