Visual SLAM (Simultaneous Localization and Mapping)

Découvre comment le SLAM visuel permet la cartographie autonome. Apprends à améliorer la précision avec Ultralytics YOLO26 et déploie des solutions via la plateforme Ultralytics.

Le SLAM visuel (Simultaneous Localization and Mapping) est une technique fondamentale de vision par ordinateur qui permet à un agent, comme un robot ou un appareil mobile, de cartographier simultanément un environnement inconnu et de déterminer sa propre position dans cet espace en utilisant uniquement des entrées de caméra. Contrairement aux systèmes SLAM traditionnels qui s'appuient sur des capteurs laser coûteux, le SLAM visuel exploite des caméras standards monoculaires, stéréo ou RGB-D. En extrayant et en suivant des caractéristiques visuelles à travers des images consécutives, le système calcule la trajectoire de la caméra tout en construisant progressivement un nuage de points 3D ou une carte dense de son environnement. Cette technologie est essentielle pour permettre la navigation autonome et la perception spatiale des machines.

Link to this sectionComment fonctionne le SLAM visuel#

Un pipeline de SLAM visuel typique se compose de deux éléments principaux : le front-end et le back-end. Le front-end traite les données des capteurs, effectuant l'extraction de caractéristiques visuelles (identification de coins ou de bords distincts) et la mise en correspondance de ces caractéristiques entre les images pour estimer le mouvement de la caméra au fil du temps. Le back-end prend ces données d'odométrie et effectue des algorithmes d'optimisation comme le bundle adjustment pour corriger la dérive et affiner à la fois la carte de l'environnement et la pose estimée de la caméra.

Des percées récentes en 2024 et 2025 ont fait évoluer le paradigme des caractéristiques artisanales traditionnelles — comme celles utilisées dans des frameworks hérités tels que ORB-SLAM3 — vers des approches d'apprentissage profond. Les systèmes modernes utilisent désormais des réseaux neuronaux pour le flux optique dense et la mise en correspondance de caractéristiques, les rendant très résistants au flou de bougé et aux environnements à faible texture. De plus, de nouvelles techniques de rendu intégrant le 3D Gaussian Splatting et les champs de radiance neuronaux (NeRFs) permettent une cartographie dense photoréaliste en temps réel qui capture les détails géométriques complexes bien mieux que les nuages de points standards.

Link to this sectionSLAM visuel vs. SLAM LiDAR vs. Suivi d'objets#

Comprendre les distinctions entre les technologies de cartographie et de suivi est essentiel pour déployer la bonne solution :

SLAM visuel vs. SLAM LiDAR : Alors que le SLAM visuel s'appuie sur des capteurs de caméra bon marché pour percevoir des textures visuelles riches, le SLAM LiDAR utilise des faisceaux laser pour mesurer avec précision les distances physiques. Le LiDAR est très précis mais coûteux et énergivore, tandis que le SLAM visuel est rentable et fournit des informations sur les couleurs, mais peut rencontrer des difficultés dans des conditions de faible éclairage.
SLAM visuel vs. Suivi d'objets : Le suivi d'objets isole et suit le mouvement d'entités spécifiques à travers les images vidéo. Le SLAM visuel, quant à lui, suit le mouvement de la caméra par rapport à l'environnement statique pour construire une carte. Cependant, les deux concepts fusionnent dans le SLAM sémantique, où des modèles de détection d'objets identifient les objets dynamiques pour les exclure délibérément de la carte statique.

Link to this sectionApplications concrètes#

Le SLAM visuel est profondément intégré dans les agents IA modernes et les systèmes d'informatique spatiale.

Robotique et drones autonomes : Les robots de livraison et les drones utilisent le SLAM visuel pour naviguer dans des environnements sans GPS comme les entrepôts ou les canyons urbains denses. En construisant des cartes en temps réel, ils peuvent planifier leurs trajets et éviter les obstacles de manière autonome.
Réalité augmentée (RA) et réalité virtuelle (RV) : les lunettes intelligentes commerciales s'appuient fortement sur le SLAM visuel pour comprendre la géométrie d'une pièce. Cela permet aux systèmes de RA d'ancrer avec précision des objets numériques, tels qu'un moniteur virtuel, sur des surfaces physiques afin qu'ils restent stables pendant que l'utilisateur se déplace.
Systèmes de navigation assistée : Les développements récents dans le SLAM sémantique propulsé par l'apprentissage profond sont utilisés pour créer des aides à la navigation portables pour les personnes malvoyantes, garantissant un itinéraire sûr en temps réel autour des obstacles physiques dynamiques.

Link to this sectionIntégration du SLAM sémantique et YOLO26#

L'un des plus grands défis du SLAM visuel consiste à gérer les environnements dynamiques où les objets en mouvement corrompent la carte. Le SLAM sémantique résout ce problème en associant le pipeline SLAM traditionnel à des modèles de vision haute vitesse. En utilisant Ultralytics YOLO26 pour la segmentation d'instances ou la détection, le système peut étiqueter sémantiquement la scène et filtrer les objets en mouvement, améliorant ainsi considérablement la précision de la localisation.

Le bloc de code ci-dessous montre comment utiliser YOLO26 pour identifier les coordonnées des objets dynamiques (comme les personnes et les voitures) afin qu'ils puissent être explicitement ignorés par le moteur de correspondance des caractéristiques SLAM :

from ultralytics import YOLO

# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")

# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
    if int(box.cls) in [0, 2]:  # Example: Class 0 is person, Class 2 is car
        print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")

En tirant parti du matériel edge AI moderne tel que le NVIDIA Jetson et en intégrant des modèles via la plateforme Ultralytics, les développeurs peuvent entraîner et déployer des algorithmes de vision légers directement aux côtés des pipelines SLAM. Pour approfondir les architectures de cartographie autonome, consultez la littérature récente sur IEEE Xplore ou arXiv, et découvrez comment optimiser les pipelines de vision continus dans la documentation Ultralytics.

Visual SLAM (Simultaneous Localization and Mapping)

Link to this sectionComment fonctionne le SLAM visuel#

Link to this sectionSLAM visuel vs. SLAM LiDAR vs. Suivi d'objets#

Link to this sectionApplications concrètes#

Link to this sectionIntégration du SLAM sémantique et YOLO26#

Explore solutions

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

IA dans la robotique

IA dans la logistique

IA dans le commerce de détail

IA dans la santé

IA dans la fabrication

IA dans l'automobile

IA en agriculture

Construisons ensemble le futur de l'IA !