Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

SLAM visuel (localisation et cartographie simultanées)

Découvrez comment le Visual SLAM permet la cartographie autonome. Apprenez à améliorer la précision grâce à Ultralytics et à déployer des solutions via la Ultralytics .

Le Visual SLAM (localisation et cartographie simultanées) est une technique fondamentale de vision par ordinateur qui permet à un agent, tel qu’un robot ou un appareil mobile, de cartographier simultanément un environnement inconnu et de déterminer sa propre position dans cet espace en utilisant uniquement les données fournies par une caméra. Contrairement aux systèmes SLAM traditionnels qui reposent sur des capteurs laser coûteux , le SLAM visuel utilise des caméras standard monoculaires, stéréoscopiques ou RVB-D. En extrayant et en suivant les caractéristiques visuelles d'images consécutives, le système calcule la trajectoire de la caméra tout en construisant progressivement un nuage de points 3D ou une carte dense de son environnement. Cette technologie est fondamentale pour permettre la navigation autonome et la perception spatiale chez les machines.

Comment fonctionne le SLAM visuel

Un pipeline Visual SLAM classique se compose de deux éléments principaux : le front-end et le back-end. Le front-end traite les données des capteurs, effectue l'extraction des caractéristiques visuelles (en identifiant les angles ou les arêtes distincts) et fait correspondre ces caractéristiques d'une image à l'autre afin d'estimer le mouvement de la caméra au fil du temps. Le back-end utilise ces données d'odométrie et applique des algorithmes d'optimisation tels que l'ajustement de faisceaux pour corriger la dérive et affiner à la fois la carte de l'environnement et la pose estimée de la caméra.

Les avancées récentes de 2024 et 2025 ont marqué un tournant, passant des caractéristiques traditionnelles définies manuellement — telles que celles utilisées dans les cadres traditionnels comme ORB-SLAM3— à des approches basées sur l'apprentissage profond. Les systèmes modernes utilisent désormais des réseaux neuronaux pour le flux optique dense et la correspondance des caractéristiques, ce qui les rend très résistants au flou de mouvement et aux environnements à faible texture. De plus, de nouvelles techniques de rendu intégrant le 3D Gaussian Splatting et les Neural Radiance Fields (NeRF) permettent une cartographie dense photoréaliste en temps réel qui capture les détails géométriques complexes bien mieux que les nuages de points standard.

SLAM visuel vs SLAM LiDAR vs suivi d'objets

Il est essentiel de bien comprendre les différences entre les technologies de cartographie et de suivi pour mettre en place la bonne solution :

  • SLAM visuel vs SLAM LiDAR : alors que le SLAM visuel s'appuie sur des capteurs de caméra peu coûteux pour percevoir des textures visuelles riches, le SLAM LiDAR utilise des faisceaux laser pour mesurer avec précision les distances physiques. Le LiDAR est très précis mais coûteux et gourmand en énergie, tandis que le SLAM visuel est économique et fournit des informations sur les couleurs, mais peut rencontrer des difficultés dans des conditions de faible luminosité.
  • SLAM visuel vs suivi d'objets : Le suivi d'objets permet d'isoler et de suivre les mouvements d'entités spécifiques d'une image vidéo à l'autre. Le SLAM visuel, quant à lui, suit les mouvements de la caméra par rapport à l'environnement statique afin de construire une carte. Cependant, ces deux concepts se rejoignent dans le SLAM sémantique, où des modèles de détection d'objets identifient les objets dynamiques afin de les exclure délibérément de la carte statique.

Applications concrètes

Le SLAM visuel est étroitement intégré aux agents d'IA modernes et aux systèmes informatiques spatiaux.

  • Robotique et drones autonomes: Les robots de livraison et les drones utilisent la technologie Visual SLAM pour se déplacer dans des environnements où le GPS ne fonctionne pas, comme les entrepôts ou les canyons urbains densément peuplés. En créant des cartes en temps réel, ils peuvent planifier leur itinéraire et éviter les obstacles de manière autonome.
  • Réalité augmentée (RA) et réalité virtuelle (RV): Les lunettes intelligentes disponibles dans le commerce s'appuient largement sur la technologie Visual SLAM pour analyser la géométrie d'une pièce. Cela permet aux systèmes de RA de positionner avec précision des objets numériques, tels qu'un écran virtuel, sur des surfaces physiques, de sorte qu'ils restent stables lorsque l'utilisateur se déplace.
  • Systèmes d'aide à la navigation: les avancées récentes en matière de SLAM sémantique basé sur l'apprentissage profond sont mises à profit pour créer des aides à la navigation portables destinées aux personnes malvoyantes, garantissant ainsi un guidage sûr et en temps réel pour contourner les obstacles physiques en mouvement.

Intégration du SLAM sémantique et de YOLO26

L'un des principaux défis du SLAM visuel consiste à gérer les environnements dynamiques dans lesquels les objets en mouvement faussent la carte. Le SLAM sémantique résout ce problème en associant le pipeline SLAM traditionnel à des modèles de vision à haute vitesse. En utilisant par exemple Ultralytics pour la segmentation ou la détection d'instances, le système peut étiqueter sémantiquement la scène et filtrer les objets en mouvement, ce qui améliore considérablement la précision de la localisation.

Le bloc de code ci-dessous montre comment utiliser YOLO26 pour identifier les coordonnées d'objets en mouvement (tels que des personnes et des voitures) afin qu'ils puissent être explicitement ignorés par le moteur de correspondance des caractéristiques SLAM :

from ultralytics import YOLO

# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")

# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
    if int(box.cls) in [0, 2]:  # Example: Class 0 is person, Class 2 is car
        print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")

En tirant parti de matériel IA de pointe tel que le NVIDIA et en intégrant des modèles via la Ultralytics , les développeurs peuvent entraîner et déployer des algorithmes de vision légers directement au sein des pipelines SLAM. Pour approfondir vos connaissances sur les architectures de cartographie autonome, consultez la littérature récente sur IEEE Xplore ou arXiv, et découvrez comment optimiser les pipelines de vision en continu dans la Ultralytics .

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique