Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Visuelles SLAM (Simultaneous Localization and Mapping)

Erfahren Sie, wie Visual SLAM die autonome Kartierung ermöglicht. Lernen Sie, wie Sie die Genauigkeit mit Ultralytics verbessern und Lösungen über die Ultralytics bereitstellen können.

Visual SLAM (Simultaneous Localization and Mapping) ist eine zentrale Technik der Bildverarbeitung, die es einem Agenten, wie beispielsweise einem Roboter oder einem mobilen Gerät, ermöglicht, eine unbekannte Umgebung abzubilden und gleichzeitig seine eigene Position in diesem Raum zu bestimmen, wobei ausschließlich Kameradaten verwendet werden. Im Gegensatz zu herkömmlichen SLAM-Systemen, die auf teure Lasersensoren setzen, nutzt Visual SLAM handelsübliche Monokular-, Stereo- oder RGB-D-Kameras. Durch die Extraktion und Verfolgung visueller Merkmale über aufeinanderfolgende Bildframes berechnet das System die Kamerabahn und erstellt dabei schrittweise eine 3D-Punktwolke oder eine dichte Karte der Umgebung. Diese Technologie ist grundlegend für die Ermöglichung autonomer Navigation und räumlicher Wahrnehmung bei Maschinen.

So funktioniert Visual SLAM

Eine typische Visual-SLAM-Pipeline besteht aus zwei Hauptkomponenten: dem Frontend und dem Backend. Das Frontend verarbeitet Sensordaten, führt eine visuelle Merkmalsextraktion durch (Identifizierung charakteristischer Ecken oder Kanten) und gleicht diese Merkmale zwischen den Einzelbildern ab, um die Bewegung der Kamera im Zeitverlauf zu schätzen. Das Backend nimmt diese Odometriedaten auf und führt Optimierungsalgorithmen wie die Bündeljustierung durch, um Abweichungen zu korrigieren und sowohl die Umgebungskarte als auch die geschätzte Pose der Kamera zu verfeinern.

Jüngste Durchbrüche in den Jahren 2024 und 2025 haben zu einem Paradigmenwechsel geführt: Weg von traditionellen, manuell erstellten Merkmalen – wie sie in älteren Frameworks wie ORB-SLAM3verwendet werden – hin zu Deep-Learning- Ansätzen. Moderne Systeme nutzen heute neuronale Netze für dichten optischen Fluss und Merkmalsabgleich, wodurch sie äußerst widerstandsfähig gegenüber Bewegungsunschärfe und Umgebungen mit geringer Texturdichte sind. Darüber hinaus ermöglichen neuartige Rendering-Techniken, die 3D-Gaussian-Splatting und Neural Radiance Fields (NeRFs) integrieren, eine fotorealistische, dichte Kartierung in Echtzeit, die komplexe geometrische Details weitaus besser erfasst als herkömmliche Punktwolken.

Visuelles SLAM vs. LiDAR-SLAM vs. Objektverfolgung

Das Verständnis der Unterschiede zwischen Kartierungs- und Ortungstechnologien ist entscheidend für den Einsatz der richtigen Lösung:

  • Visual SLAM vs. LiDAR SLAM: Während Visual SLAM auf kostengünstige Kamerasensoren setzt, um detailreiche visuelle Texturen zu erfassen, nutzt LiDAR SLAM Laserstrahlen, um physische Entfernungen präzise zu messen. LiDAR ist äußerst genau, aber teuer und verbraucht viel Strom, während Visual SLAM kostengünstig ist und Farbinformationen liefert, bei schlechten Lichtverhältnissen jedoch Schwierigkeiten haben kann.
  • Visuelles SLAM vs. Objektverfolgung: Bei der Objektverfolgung werden bestimmte Objekte isoliert und ihre Bewegung über mehrere Videobilder hinweg verfolgt. Visuelles SLAM hingegen verfolgt die Bewegung der Kamera relativ zur statischen Umgebung, um eine Karte zu erstellen. Die beiden Konzepte verschmelzen jedoch im semantischen SLAM, wo Objekterkennungsmodelle dynamische Objekte identifizieren, um sie gezielt aus der statischen Karte auszuschließen.

Anwendungsfälle in der Praxis

Visual SLAM ist fest in moderne KI-Agenten und Raumcomputersysteme integriert.

  • Robotik und autonome Drohnen: Lieferroboter und Drohnen nutzen Visual SLAM zur Navigation in Umgebungen ohne GPS-Empfang, wie beispielsweise in Lagerhallen oder in dichten städtischen Straßenschluchten. Durch die Erstellung von Echtzeitkarten können sie selbstständig Routen planen und Hindernissen ausweichen.
  • Augmented Reality (AR) und Virtual Reality (VR): Kommerzielle Smart-Brillen stützen sich in hohem Maße auf Visual SLAM, um die Raumgeometrie zu erfassen. Dadurch können AR-Systeme digitale Objekte, wie beispielsweise einen virtuellen Monitor, präzise auf physischen Oberflächen verankern, sodass diese auch bei Bewegungen des Benutzers stabil bleiben.
  • Navigationshilfesysteme: Neueste Entwicklungen im Bereich des auf Deep Learning basierenden semantischen SLAM werden genutzt, um tragbare Navigationshilfen für sehbehinderte Menschen zu entwickeln, die eine sichere Routenführung in Echtzeit um dynamische physische Hindernisse herum gewährleisten.

Integration von Semantic SLAM und YOLO26

Eine der größten Herausforderungen bei Visual SLAM ist der Umgang mit dynamischen Umgebungen, in denen sich bewegende Objekte die Karte verfälschen. Semantic SLAM löst dieses Problem, indem es die herkömmliche SLAM-Pipeline mit Hochgeschwindigkeits-Bildverarbeitungsmodellen kombiniert. Durch den Einsatz von Ultralytics zur Objektsegmentierung oder -erkennung kann das System die Szene semantisch kennzeichnen und sich bewegende Objekte herausfiltern, wodurch die Lokalisierungsgenauigkeit drastisch verbessert wird.

Der folgende Code-Block zeigt, wie man mit YOLO26 die Koordinaten dynamischer Objekte (wie Personen und Autos) ermittelt, damit diese von der SLAM-Feature-Matching-Engine explizit ignoriert werden können:

from ultralytics import YOLO

# Load Ultralytics YOLO26 to detect dynamic objects in the scene
model = YOLO("yolo26n.pt")
results = model("robot_camera_view.jpg")

# Extract bounding boxes of dynamic objects to exclude them from SLAM maps
for box in results[0].boxes:
    if int(box.cls) in [0, 2]:  # Example: Class 0 is person, Class 2 is car
        print(f"Ignore dynamic feature region at coordinates: {box.xyxy[0]}")

Durch den Einsatz moderner Edge-AI-Hardware wie dem NVIDIA und die Integration von Modellen über die Ultralytics können Entwickler schlanke Bildverarbeitungsalgorithmen direkt neben SLAM-Pipelines trainieren und bereitstellen. Weitere Informationen zu Architekturen für die autonome Kartierung finden Sie in der aktuellen Fachliteratur auf IEEE Xplore oder arXiv. In der Ultralytics erfahren Sie, wie Sie kontinuierliche Bildverarbeitungs-Pipelines optimieren können.

Lassen Sie uns gemeinsam die Zukunft der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens