Découvrez comment les modèles mondiaux permettent à l'IA de prédire des états futurs à partir de la dynamique environnementale. Découvrez comment Ultralytics fournit la perception nécessaire à l'IA prédictive.
Un « modèle mondial » désigne la représentation interne d'un système d'IA du fonctionnement d'un environnement, lui permettant de prédire des états ou des résultats futurs sur la base d'observations actuelles et d'actions potentielles. Contrairement aux modèles traditionnels qui relient directement les entrées aux sorties (comme la classification d'une image), un modèle mondial apprend la dynamique, la physique et les relations causales sous-jacentes d'un système. Ce concept est essentiel pour faire progresser l' intelligence artificielle générale (AGI), car il donne aux machines une forme de raisonnement « de bon sens », leur permettant de simuler mentalement des scénarios avant d'agir dans le monde réel.
À la base, un modèle mondial fonctionne de manière similaire à l'intuition humaine. Lorsque vous lancez une balle, vous ne calculez pas les équations de résistance au vent ; votre cerveau simule la trajectoire en se basant sur vos expériences passées. De la même manière, dans l' apprentissage automatique (ML), ces modèles compressent les données sensorielles à haute dimension (comme les images vidéo) en un état latent compact. Cet état compressé permet à l'agent de « rêver » ou d'halluciner efficacement des futurs potentiels.
Des recherches de pointe, telles que les travaux sur les modèles de monde récurrents (Recurrent World Models) de Ha et Schmidhuber, démontrent comment les agents peuvent apprendre des politiques entièrement à l'intérieur d'un environnement de rêve simulé. Plus récemment, les progrès de l'IA générative, comme Sora d'OpenAI, représentent une forme visuelle de modélisation du monde, où le système comprend la physique, l'éclairage et la permanence des objets pour générer une continuité vidéo cohérente.
Les modèles mondiaux sont particulièrement transformateurs dans les domaines qui nécessitent une prise de décision complexe.
Il est utile de distinguer les modèles mondiaux des approches standard :
Bien que la construction d'un modèle complet du monde soit complexe, le concept fondamental repose sur la prédiction des états futurs. Pour les tâches de vision par ordinateur, les modèles de détection à grande vitesse tels que Ultralytics agissent comme des « yeux » sensoriels qui alimentent la logique décisionnelle en observations.
Python suivant montre comment utiliser un YOLO pour extraire l'état actuel (positions des objets ) qui servirait d'entrée pour l'étape prédictive d'un modèle mondial.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding boxes (xyxy) representing object states
for result in results:
boxes = result.boxes.xyxy.cpu().numpy()
print(f"Observed State (Object Positions): {boxes}")
# A World Model would take these 'boxes' to predict the NEXT frame's state
L'évolution des modèles mondiaux s'oriente vers l' IA physique, où l'intelligence numérique interagit de manière transparente avec le monde physique. Des innovations telles que le JEPA (Joint Embedding Predictive Architecture) de Yann LeCun proposent d'apprendre des représentations abstraites plutôt que de prédire chaque pixel, ce qui rend les modèles nettement plus efficaces.
À mesure que ces architectures mûrissent, nous nous attendons à les voir intégrées à Ultralytics , permettant ainsi aux développeurs non seulement de detect , mais aussi de prévoir leurs trajectoires et leurs interactions dans des environnements dynamiques. Ce passage de la détection statique à la prédiction dynamique marque le prochain grand bond en avant dans le domaine de la vision par ordinateur (CV).