Découvrez comment le Visual SLAM permet la cartographie autonome. Apprenez à améliorer la précision grâce à Ultralytics et à déployer des solutions via la Ultralytics .
Le Visual SLAM (localisation et cartographie simultanées) est une technique fondamentale de vision par ordinateur qui permet à un agent, tel qu’un robot ou un appareil mobile, de cartographier simultanément un environnement inconnu et de déterminer sa propre position dans cet espace en utilisant uniquement les données fournies par une caméra. Contrairement aux systèmes SLAM traditionnels qui reposent sur des capteurs laser coûteux , le SLAM visuel utilise des caméras standard monoculaires, stéréoscopiques ou RVB-D. En extrayant et en suivant les caractéristiques visuelles d'images consécutives, le système calcule la trajectoire de la caméra tout en construisant progressivement un nuage de points 3D ou une carte dense de son environnement. Cette technologie est fondamentale pour permettre la navigation autonome et la perception spatiale chez les machines.
Un pipeline Visual SLAM classique se compose de deux éléments principaux : le front-end et le back-end. Le front-end traite les données des capteurs, effectue l'extraction des caractéristiques visuelles (en identifiant les angles ou les arêtes distincts) et fait correspondre ces caractéristiques d'une image à l'autre afin d'estimer le mouvement de la caméra au fil du temps. Le back-end utilise ces données d'odométrie et applique des algorithmes d'optimisation tels que l'ajustement de faisceaux pour corriger la dérive et affiner à la fois la carte de l'environnement et la pose estimée de la caméra.
Les avancées récentes de 2024 et 2025 ont marqué un tournant, passant des caractéristiques traditionnelles définies manuellement — telles que celles utilisées dans les cadres traditionnels comme ORB-SLAM3— à des approches basées sur l'apprentissage profond. Les systèmes modernes utilisent désormais des réseaux neuronaux pour le flux optique dense et la correspondance des caractéristiques, ce qui les rend très résistants au flou de mouvement et aux environnements à faible texture. De plus, de nouvelles techniques de rendu intégrant le 3D Gaussian Splatting et les Neural Radiance Fields (NeRF) permettent une cartographie dense photoréaliste en temps réel qui capture les détails géométriques complexes bien mieux que les nuages de points standard.
Il est essentiel de bien comprendre les différences entre les technologies de cartographie et de suivi pour mettre en place la bonne solution :
Le SLAM visuel est étroitement intégré aux agents d'IA modernes et aux systèmes informatiques spatiaux.
L'un des principaux défis du SLAM visuel consiste à gérer les environnements dynamiques dans lesquels les objets en mouvement faussent la carte. Le SLAM sémantique résout ce problème en associant le pipeline SLAM traditionnel à des modèles de vision à haute vitesse. En utilisant par exemple Ultralytics pour la segmentation ou la détection d'instances, le système peut étiqueter sémantiquement la scène et filtrer les objets en mouvement, ce qui améliore considérablement la précision de la localisation.
Le bloc de code ci-dessous montre comment utiliser YOLO26 pour identifier les coordonnées d'objets en mouvement (tels que des personnes et des voitures) afin qu'ils puissent être explicitement ignorés par le moteur de correspondance des caractéristiques SLAM :
from ultralytics import YOLO
# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")
# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
if int(box.cls) in [0, 2]: # Example: Class 0 is person, Class 2 is car
print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")
En tirant parti de matériel IA de pointe tel que le NVIDIA et en intégrant des modèles via la Ultralytics , les développeurs peuvent entraîner et déployer des algorithmes de vision légers directement au sein des pipelines SLAM. Pour approfondir vos connaissances sur les architectures de cartographie autonome, consultez la littérature récente sur IEEE Xplore ou arXiv, et découvrez comment optimiser les pipelines de vision en continu dans la Ultralytics .
Commencez votre parcours avec l'avenir de l'apprentissage automatique