Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

3D-Objekt-Erkennung

Erkunden Sie die 3D-Objekterkennung: Wie LiDAR, Punktwolken und Deep Learning präzise 3D-Bounding Boxes für autonome Fahrzeuge, Robotik und AR erstellen.

Die 3D-Objekterkennung ist eine anspruchsvolle Computer Vision (CV) Technik, die Objekte im dreidimensionalen Raum identifiziert, klassifiziert und lokalisiert Objekte in einem dreidimensionalen Raum. Im Gegensatz zur traditionellen 2D Objekterkennung, bei der ein flacher rechteckiger Bounding Box um ein Objekt in einer Bildebene zeichnet, schätzt die 3D Objekterkennung einen orientierten 3D-Begrenzungsrahmen - einen Quader, der durch seine zentralen Koordinaten (x, y, z) definiert ist, Abmessungen (Länge, Breite, Höhe) und Orientierung (Neigungswinkel) definiert ist. Diese Fähigkeit ermöglicht es Künstliche Intelligenz (KI) Systeme können die reale Größe, Entfernung und Position von Objekten wahrzunehmen, was für die physische Interaktion und Navigation.

So funktioniert die 3D-Objekterkennung

Um Tiefe und Volumen wahrzunehmen, sind 3D-Objekterkennungsmodelle auf Datenquellen angewiesen, die die räumliche Geometrie erfassen. Während 2D Methoden ausschließlich auf der Pixelintensität beruhen, verarbeiten 3D-Methoden Daten von modernen Sensoren:

  • LiDAR (Light Detection and Ranging): Sendet Laserimpulse aus, um präzise Entfernungen zu messen, und erzeugt eine spärliche 3D-Darstellung, die als Punktwolke.
  • Stereokameras: Verwenden zwei Linsen, um das binokulare Sehen zu simulieren und die Tiefe durch Disparitätskarten zu berechnen um die 3D-Struktur zu rekonstruieren.
  • Monokular-Kameras: Nutzen Sie Deep Learning (DL), um aus Einzelbildern auf die Tiefe Bildern, oft als "Pseudo-LiDAR"-Techniken bezeichnet.

Spezialisierte Architekturen verarbeiten diese Daten. Zum Beispiel, PointNet direkt die rohen Punktwolken, während VoxelNet den 3D-Raum in volumetrische Gitter unterteilt (Voxel) aufteilt, um Faltungsoperationen anzuwenden. Diese Modelle geben die genauen 3D-Koordinaten und die Ausrichtung von Objekten aus, Dadurch können Maschinen nicht nur verstehen , was ein Objekt ist, sondern auch , wo genau es sich in der physischen Welt befindet. Welt befindet.

3D- vs. 2D-Objekterkennung

Der Hauptunterschied liegt in der räumlichen Dimensionalität und den bereitgestellten Informationen:

  • 2D-Objekt-Erkennung: Arbeitet im Bildraum (Pixel). Sie gibt eine Bounding Box (min_x, min_y, max_x, max_y), der die Position eines Objekts im Kamerabild angibt, aber keine Tiefe oder absolute Größe hat.
  • 3D-Objekt-Erkennung: Arbeitet im Weltraum (Meter/Einheiten). Sie gibt einen 3D-Quader aus, der die Tiefe Tiefe, physische Dimensionen und Rotation berücksichtigt. Dies ermöglicht eine bessere Behandlung von Verdeckungen und eine präzise Messung.

Für Anwendungen, die eine partielle räumliche Wahrnehmung ohne vollen 3D-Overhead erfordern, Oriented Bounding Box (OBB) Erkennung dient als einen Mittelweg, indem sie gedrehte Bounding Boxes in 2D vorhersagt, um Objekte wie Schiffe oder Fahrzeuge in Luftbildern besser zu erfassen.

Anwendungsfälle in der Praxis

Die 3D-Objekterkennung ist der Wahrnehmungsmotor für Branchen, die mit der physischen Welt interagieren:

  • Autonome Fahrzeuge: Selbstfahrende Autos, wie die von Waymo entwickelten, verwenden 3D-Erkennung auf LiDAR- und Kameradaten, um die Geschwindigkeit, den Kurs und den Abstand zu anderen Fahrzeugen und Fußgängern zu track und sichere Trajektorien zu planen.
  • Robotik: Industriearme und mobile Roboter in der Fertigung sind auf 3D-Wahrnehmung angewiesen, um Objekte Objekte in bestimmten Posen zu greifen oder kollisionsfrei durch dynamische Lagerhäuser zu navigieren.
  • Erweiterte Realität (AR): Geräte verwenden 3D-Erkennung, um virtuelle Objekte auf realen Oberflächen zu verankern, Damit wird sichergestellt, dass sie sich korrekt an die Geometrie der Umgebung anpassen.

Integration mit YOLO11

Während YOLO11 in erster Linie ein 2D-Detektor ist, spielt er spielt er eine wichtige Rolle in vielen 3D-Detektionspipelines. Ein gängiger Ansatz, bekannt als "kegelstumpfbasierte Erkennung", verwendet verwendet ein Hochgeschwindigkeits-2D-Modell, um den interessierenden Bereich in einem Bild zu identifizieren. Diese 2D-Box wird dann in den 3D-Raum extrudiert um die Punktwolke zu beschneiden, wodurch der Suchraum für das 3D-Modell erheblich reduziert wird.

Das folgende Beispiel zeigt, wie der erste 2D-Erkennungsschritt mit Ultralytics YOLO11 durchgeführt werden kann. als Vorschlag für ein 3D-Lifting-Modul dient:

from ultralytics import YOLO

# Load the YOLO11 model (optimized for 2D detection)
model = YOLO("yolo11n.pt")

# Run inference on an image (e.g., from a vehicle camera)
results = model("path/to/driving_scene.jpg")

# In a 3D pipeline, these 2D boxes (x, y, w, h) are used to
# isolate the corresponding region in the LiDAR point cloud.
for result in results:
    for box in result.boxes:
        print(f"Class: {int(box.cls)}, 2D Box: {box.xywh.numpy()}")

Verwandte Konzepte

  • Abschätzung der Tiefe: Berechnet die Entfernung jedes Pixels in einem Bild von der Kamera. Sie liefert zwar Tiefendaten, kann aber nicht einzelne Objekte oder deren Abmessungen wie bei der 3D-Erkennung.
  • Sensor-Fusion: Der Prozess der Kombination von Daten aus mehreren Sensoren (z. B. LiDAR, Radar und Kameras) zur Verbesserung der Genauigkeit und Zuverlässigkeit der 3D-Erkennung zu verbessern.
  • NuScenes-Datensatz: Ein großer öffentlicher Datensatz für autonomes Fahren, der 3D-Bounding-Box-Kommentare für LiDAR- und Kameradaten, die häufig für den Vergleich von 3D-Modellen verwendet werden.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten