Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Modèles mondiaux

Découvrez comment les modèles mondiaux permettent à l'IA de prédire des états futurs à partir de la dynamique environnementale. Découvrez comment Ultralytics fournit la perception nécessaire à l'IA prédictive.

Un « modèle mondial » désigne la représentation interne d'un système d'IA du fonctionnement d'un environnement, lui permettant de prédire des états ou des résultats futurs sur la base d'observations actuelles et d'actions potentielles. Contrairement aux modèles traditionnels qui relient directement les entrées aux sorties (comme la classification d'une image), un modèle mondial apprend la dynamique, la physique et les relations causales sous-jacentes d'un système. Ce concept est essentiel pour faire progresser l' intelligence artificielle générale (AGI), car il donne aux machines une forme de raisonnement « de bon sens », leur permettant de simuler mentalement des scénarios avant d'agir dans le monde réel.

Le mécanisme derrière les modèles mondiaux

À la base, un modèle mondial fonctionne de manière similaire à l'intuition humaine. Lorsque vous lancez une balle, vous ne calculez pas les équations de résistance au vent ; votre cerveau simule la trajectoire en se basant sur vos expériences passées. De la même manière, dans l' apprentissage automatique (ML), ces modèles compressent les données sensorielles à haute dimension (comme les images vidéo) en un état latent compact. Cet état compressé permet à l'agent de « rêver » ou d'halluciner efficacement des futurs potentiels.

Des recherches de pointe, telles que les travaux sur les modèles de monde récurrents (Recurrent World Models) de Ha et Schmidhuber, démontrent comment les agents peuvent apprendre des politiques entièrement à l'intérieur d'un environnement de rêve simulé. Plus récemment, les progrès de l'IA générative, comme Sora d'OpenAI, représentent une forme visuelle de modélisation du monde, où le système comprend la physique, l'éclairage et la permanence des objets pour générer une continuité vidéo cohérente.

Applications en robotique et simulation

Les modèles mondiaux sont particulièrement transformateurs dans les domaines qui nécessitent une prise de décision complexe.

  • Véhicules autonomes : les voitures autonomes utilisent des modèles mondiaux pour prédire le comportement des autres conducteurs et des piétons. En simulant des milliers de scénarios de circulation potentiels par seconde, le véhicule peut choisir l' itinéraire le plus sûr. Cela est étroitement lié à la vision par ordinateur dans les solutions automobiles, où une perception précise est la base de la prédiction.
  • Robotique : dans le dom aine de la robotique industrielle, un bras robotisé formé à l'aide d'un modèle mondial peut s'adapter à de nouveaux objets ou à des obstacles inattendus sans avoir besoin d'être reformé. Il comprend la physique de la préhension et du mouvement, améliorant ainsi les solutions de fabrication intelligentes.

Modèles mondiaux vs apprentissage par renforcement standard

Il est utile de distinguer les modèles mondiaux des approches standard :

  • Modèles mondiaux vs. Apprentissage par renforcement (RL): Le RL traditionnel est souvent « sans modèle », ce qui signifie que l'agent apprend uniquement par essais et erreurs dans l' environnement. Une approche par modèle mondial est « basée sur un modèle », dans laquelle l'agent construit un simulateur à partir duquel il apprend, réduisant considérablement la quantité d'interactions nécessaires avec le monde réel.
  • Modèles mondiaux vs. Grands modèles linguistiques (LLM): Alors que les LLM prédisent le prochain token de texte, les modèles mondiaux prédisent souvent la prochaine image ou le prochain état visuel. Cependant, les frontières s'estompent avec l'essor de l' apprentissage multimodal, où les modèles intègrent le texte, la vision et la physique.

Concepts pratiques de mise en œuvre

Bien que la construction d'un modèle complet du monde soit complexe, le concept fondamental repose sur la prédiction des états futurs. Pour les tâches de vision par ordinateur, les modèles de détection à grande vitesse tels que Ultralytics agissent comme des « yeux » sensoriels qui alimentent la logique décisionnelle en observations.

Python suivant montre comment utiliser un YOLO pour extraire l'état actuel (positions des objets ) qui servirait d'entrée pour l'étape prédictive d'un modèle mondial.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding boxes (xyxy) representing object states
for result in results:
    boxes = result.boxes.xyxy.cpu().numpy()
    print(f"Observed State (Object Positions): {boxes}")
    # A World Model would take these 'boxes' to predict the NEXT frame's state

L'avenir de l'IA prédictive

L'évolution des modèles mondiaux s'oriente vers l' IA physique, où l'intelligence numérique interagit de manière transparente avec le monde physique. Des innovations telles que le JEPA (Joint Embedding Predictive Architecture) de Yann LeCun proposent d'apprendre des représentations abstraites plutôt que de prédire chaque pixel, ce qui rend les modèles nettement plus efficaces.

À mesure que ces architectures mûrissent, nous nous attendons à les voir intégrées à Ultralytics , permettant ainsi aux développeurs non seulement de detect , mais aussi de prévoir leurs trajectoires et leurs interactions dans des environnements dynamiques. Ce passage de la détection statique à la prédiction dynamique marque le prochain grand bond en avant dans le domaine de la vision par ordinateur (CV).

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant