Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

3D-Objekt-Erkennung

Erkunden Sie die 3D-Objekterkennung: Wie LiDAR, Punktwolken und Deep Learning präzise 3D-Bounding Boxes für autonome Fahrzeuge, Robotik und AR erstellen.

Die 3D-Objekterkennung ist eine fortschrittliche Computer-Vision-Technik (CV) zur Identifizierung und Lokalisierung von Objekten in einem dreidimensionalen Raum. Im Gegensatz zur 2D-Objekterkennung, die mit flachen Bildern arbeitet, liefert die 3D-Erkennung wichtige Tiefeninformationen, die es einem System ermöglichen, die reale Größe, Position und Ausrichtung eines Objekts zu verstehen. Diese Fähigkeit ermöglicht ein viel tieferes und genaueres räumliches Bewusstsein, das für viele moderne KI-Anwendungen unerlässlich ist.

So funktioniert die 3D-Objekterkennung

3D-Objekterkennungssysteme stützen sich in der Regel auf spezielle Sensoren zur Erfassung der Geometrie der Umgebung. Zu den gängigen Datenquellen gehören:

  • LiDAR (Light Detection and Ranging): Bei dieser Technologie werden mit Hilfe von Laserimpulsen genaue Entfernungen zu Objekten gemessen und eine detaillierte 3D-Karte, eine so genannte Punktwolke, erstellt. Eine Punktwolke ist eine Sammlung von Datenpunkten im 3D-Raum, die die Außenflächen von Objekten genau darstellt.
  • Stereokameras: Ähnlich wie beim menschlichen Sehen werden bei Stereokameras zwei oder mehr Objektive verwendet, um Bilder aus leicht unterschiedlichen Winkeln aufzunehmen. Durch den Vergleich dieser Bilder kann das System die Tiefe berechnen und eine 3D-Darstellung der Szene erstellen.
  • Tiefenkarten: Diese können von verschiedenen Sensoren, einschließlich Stereokameras oder Time-of-Flight (ToF)-Kameras, erstellt werden und liefern einen Entfernungswert pro Pixel.

Sobald diese 3D-Daten erfasst sind, werden sie von speziellen Deep-Learning-Modellen analysiert, um Objekte zu identifizieren und zu lokalisieren. Modelle wie VoxelNet und VoteNet wurden entwickelt, um unstrukturierte Punktwolken oder Voxel-Gitter (3D-Entsprechungen von Pixeln) zu verarbeiten, um 3D-Begrenzungsrahmen um Objekte vorherzusagen.

3D- vs. 2D-Objekterkennung

Der Hauptunterschied zwischen 2D- und 3D-Objekterkennung ist die räumliche Dimension, in der sie arbeiten. Bei der 2D-Erkennung wird die Position eines Objekts auf einem flachen Bild anhand eines durch X- und Y-Koordinaten definierten rechteckigen Rahmens bestimmt. Es fehlt jedoch die Tiefenwahrnehmung, was es schwierig macht, die wahre Größe oder Entfernung eines Objekts zu beurteilen. In einem 2D-Bild kann zum Beispiel ein großer, weit entfernter Lastwagen genauso groß erscheinen wie ein kleines Auto, das viel näher ist.

Die 3D-Objekterkennung überwindet diese Einschränkung durch Hinzufügen der Z-Achse für die Tiefe. Dadurch kann nicht nur bestimmt werden, was ein Objekt ist und wo es sich im Bild befindet, sondern auch, wie weit es entfernt ist, seine physischen Abmessungen und seine Ausrichtung im 3D-Raum. Dies ermöglicht zwar ein viel umfassenderes Verständnis der Umgebung, ist aber auch mit höheren Rechenkosten und komplexeren Datenanforderungen verbunden.

Anwendungsfälle in der Praxis

Die detaillierten räumlichen Informationen, die die 3D-Objekterkennung liefert, sind in vielen Bereichen von unschätzbarem Wert.

  1. Autonome Fahrzeuge: Dies ist eine der wichtigsten Anwendungen. Selbstfahrende Autos von Unternehmen wie Waymo nutzen LiDAR und Kameras, um in Echtzeit ein 3D-Modell ihrer Umgebung zu erstellen. Dies ermöglicht es dem Fahrzeug, andere Autos, Fußgänger und Radfahrer genau zu erkennen, ihre Bewegungen vorherzusagen und sicher zu navigieren.
  2. Robotik und Automatisierung: In Lagern und Produktionsstätten nutzen Roboter die 3D-Erkennung, um Objekte mit hoher Präzision zu erkennen, zu greifen und zu bewegen. Sie ist auch für Augmented-Reality-Anwendungen (AR) von grundlegender Bedeutung, da sie die realistische Platzierung virtueller Objekte und deren Interaktion mit der physischen Welt ermöglicht.

Die 3D-Objekterkennung ist zwar komplexer und ressourcenintensiver als 2D-Methoden, aber ihre Fähigkeit, ein präzises räumliches Verständnis zu liefern, macht sie zu einer unverzichtbaren Technologie für die nächste Generation intelligenter Systeme.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert