Explorez l'IA incarnée et découvrez comment les systèmes intelligents interagissent avec le monde physique. Découvrez comment optimiser la perception robotique avec Ultralytics .
L'IA incarnée représente un changement majeur, passant d'algorithmes passifs à des systèmes intelligents capables de percevoir, de raisonner et d' interagir dans un environnement physique ou simulé en 3D. Contrairement aux modèles traditionnels d'apprentissage automatique qui fonctionnent uniquement sur des ensembles de données statiques, ces systèmes possèdent un « corps » (qu'il s'agisse d'un châssis robotique physique ou d'un avatar virtuel) qui leur permet d'exécuter des actions et d'apprendre à partir d'un retour d'information continu provenant de l'environnement. En combinant les entrées des capteurs avec une prise de décision intelligente, les agents incarnés comblent le fossé entre le calcul numérique et l'exécution dans le monde réel .
Au cœur de ces systèmes dynamiques se trouve une vision informatique avancée, qui permet à l'agent de comprendre son environnement dans l'espace. Pour naviguer de manière sûre et efficace, les agents incarnés s'appuient fortement sur la détection d'objets en temps réel et l'estimation continue de la pose. Lorsque les développeurs construisent les voies neuronales de ces agents, ils intègrent souvent des cadres d'apprentissage profond issus de PyTorch ou des outilsTensorFlow pour traiter des données spatiales complexes.
Pour atteindre une véritable autonomie, ces systèmes utilisent de plus en plus des modèles de vision-langage associés à de puissants moteurs d'inférence en temps réel. Cela permet à l'IA non seulement de reconnaître une tasse, mais aussi de comprendre des instructions complexes telles que « prends la tasse rouge près du bord de la table ». Les recherches menées par des institutions telles que l' Institut pour l'intelligence artificielle centrée sur l'humain (HAI) de Stanford continuent de repousser les limites de la manière dont ces agents intègrent les données multisensorielles.
Pour bien comprendre ce domaine, il faut le distinguer de concepts étroitement liés :
L'intégration du raisonnement cognitif à l'action physique a conduit à des applications transformatrices dans de multiples secteurs, largement documentées dans la bibliothèque numérique ACM pour la recherche en IA.
Les développeurs qui construisent ces systèmes physiques exploitent souvent Ultralytics pour annoter des données d'entraînement dynamiques et déployer de manière transparente des modèles d'IA de pointe légers directement sur du matériel à faible consommation d'énergie.
Vous trouverez ci-dessous un Python illustrant comment un agent robotique pourrait utiliser un modèle de vision pour detect en continu des objets detect dans son environnement.
from ultralytics import YOLO
# Load the lightweight YOLO26 model designed for real-time edge hardware
model = YOLO("yolo26n.pt")
# Perform continuous object detection on a robotic camera feed
results = model.predict(source="camera_feed.mp4", stream=True)
# Process the spatial bounding boxes to guide robotic interaction
for r in results:
print(f"Detected {len(r.boxes)} objects ready for physical interaction.")
À mesure que les domaines de la conception matérielle et de la modélisation cognitive mûrissent, guidés par des efforts d'alignement tels que les recherchesAnthropic sur la sécurité de l'IA et les derniers modèles de raisonnement d'OpenAI, les systèmes incarnés continueront à passer des laboratoires de recherche aux environnements quotidiens, comme le souligne fréquemment IEEE Spectrum dans sa couverture de la robotique.