Glossar

3D-Objekt-Erkennung

Erkunden Sie die 3D-Objekterkennung: Wie LiDAR, Punktwolken und Deep Learning präzise 3D-Bounding Boxes für autonome Fahrzeuge, Robotik und AR erstellen.

Die 3D-Objekterkennung ist eine fortschrittliche Computer-Vision-Technik (CV) zur Identifizierung und Lokalisierung von Objekten in einem dreidimensionalen Raum. Im Gegensatz zur 2D-Objekterkennung, die mit flachen Bildern arbeitet, liefert die 3D-Erkennung wichtige Tiefeninformationen, die es einem System ermöglichen, die reale Größe, Position und Ausrichtung eines Objekts zu verstehen. Diese Fähigkeit ermöglicht ein viel tieferes und genaueres räumliches Bewusstsein, das für viele moderne KI-Anwendungen unerlässlich ist.

So funktioniert die 3D-Objekterkennung

3D-Objekterkennungssysteme stützen sich in der Regel auf spezielle Sensoren zur Erfassung der Geometrie der Umgebung. Zu den gängigen Datenquellen gehören:

LiDAR (Light Detection and Ranging): Bei dieser Technologie werden mit Hilfe von Laserimpulsen genaue Entfernungen zu Objekten gemessen und eine detaillierte 3D-Karte, eine so genannte Punktwolke, erstellt. Eine Punktwolke ist eine Sammlung von Datenpunkten im 3D-Raum, die die Außenflächen von Objekten genau darstellt.
Stereokameras: Ähnlich wie beim menschlichen Sehen werden bei Stereokameras zwei oder mehr Objektive verwendet, um Bilder aus leicht unterschiedlichen Winkeln aufzunehmen. Durch den Vergleich dieser Bilder kann das System die Tiefe berechnen und eine 3D-Darstellung der Szene erstellen.
Tiefenkarten: Diese können von verschiedenen Sensoren, einschließlich Stereokameras oder Time-of-Flight (ToF)-Kameras, erstellt werden und liefern einen Entfernungswert pro Pixel.

Sobald diese 3D-Daten erfasst sind, werden sie von speziellen Deep-Learning-Modellen analysiert, um Objekte zu identifizieren und zu lokalisieren. Modelle wie VoxelNet und VoteNet wurden entwickelt, um unstrukturierte Punktwolken oder Voxel-Gitter (3D-Entsprechungen von Pixeln) zu verarbeiten, um 3D-Begrenzungsrahmen um Objekte vorherzusagen.

3D- vs. 2D-Objekterkennung

Der Hauptunterschied zwischen 2D- und 3D-Objekterkennung ist die räumliche Dimension, in der sie arbeiten. Bei der 2D-Erkennung wird die Position eines Objekts auf einem flachen Bild anhand eines durch X- und Y-Koordinaten definierten rechteckigen Rahmens bestimmt. Es fehlt jedoch die Tiefenwahrnehmung, was es schwierig macht, die wahre Größe oder Entfernung eines Objekts zu beurteilen. In einem 2D-Bild kann zum Beispiel ein großer, weit entfernter Lastwagen genauso groß erscheinen wie ein kleines Auto, das viel näher ist.

Die 3D-Objekterkennung überwindet diese Einschränkung durch Hinzufügen der Z-Achse für die Tiefe. Dadurch kann nicht nur bestimmt werden, was ein Objekt ist und wo es sich im Bild befindet, sondern auch, wie weit es entfernt ist, seine physischen Abmessungen und seine Ausrichtung im 3D-Raum. Dies ermöglicht zwar ein viel umfassenderes Verständnis der Umgebung, ist aber auch mit höheren Rechenkosten und komplexeren Datenanforderungen verbunden.

Anwendungsfälle in der Praxis

Die detaillierten räumlichen Informationen, die die 3D-Objekterkennung liefert, sind in vielen Bereichen von unschätzbarem Wert.

Autonome Fahrzeuge: Dies ist eine der wichtigsten Anwendungen. Selbstfahrende Autos von Unternehmen wie Waymo nutzen LiDAR und Kameras, um in Echtzeit ein 3D-Modell ihrer Umgebung zu erstellen. Dies ermöglicht es dem Fahrzeug, andere Autos, Fußgänger und Radfahrer genau zu erkennen, ihre Bewegungen vorherzusagen und sicher zu navigieren.
Robotik und Automatisierung: In Lagern und Produktionsstätten nutzen Roboter die 3D-Erkennung, um Objekte mit hoher Präzision zu erkennen, zu greifen und zu bewegen. Sie ist auch für Augmented-Reality-Anwendungen (AR) von grundlegender Bedeutung, da sie die realistische Platzierung virtueller Objekte und deren Interaktion mit der physischen Welt ermöglicht.

Die 3D-Objekterkennung ist zwar komplexer und ressourcenintensiver als 2D-Methoden, aber ihre Fähigkeit, ein präzises räumliches Verständnis zu liefern, macht sie zu einer unverzichtbaren Technologie für die nächste Generation intelligenter Systeme.

3D-Objekt-Erkennung

Trainieren Sie Ultralytics YOLO-Modelle, um Arbeitsabläufe in allen Branchen zu rationalisieren

Flexible Enterprise-Lizenzlösung zur Förderung Ihrer Innovationen

Trainieren Sie KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

So funktioniert die 3D-Objekterkennung

3D- vs. 2D-Objekterkennung

Anwendungsfälle in der Praxis

Mehr in dieser Kategorie lesen

Von Bits zu Qubits: Wie die Quantenoptimierung die KI umgestaltet

Eine Kurzanleitung für Anfänger, wie man ein KI-Modell trainiert

Aus Dubai mit Einblicken: Die wichtigsten Erkenntnisse aus dem GDG MENA-T Summit 2025

Treten Sie der Ultralytics-Community bei