Erkunden Sie die 3D-Objekterkennung: Wie LiDAR, Punktwolken und Deep Learning präzise 3D-Bounding Boxes für autonome Fahrzeuge, Robotik und AR erstellen.
Die 3D-Objekterkennung ist eine fortschrittliche Computer-Vision-Technik (CV), die Objekte in einer dreidimensionalen Umgebung identifiziert, klassifiziert und lokalisiert. Im Gegensatz zur herkömmlichen 2D-Objekterkennung, bei der ein flacher rechteckiger Begrenzungsrahmen um ein Objekt auf einer Bildebene gezogen wird , schätzt die 3D-Objekterkennung einen räumlichen Quader. Dieser Volumen wird durch sieben Schlüsselparameter definiert: die Mittelkoordinaten (x, y, z), die physikalischen Abmessungen (Länge, Breite, Höhe) und die Ausrichtung (Kurswinkel). Diese reichhaltigen räumlichen Daten ermöglichen es künstlichen Intelligenzsystemen (KI), die tatsächliche Größe, Entfernung und Position von Objekten relativ zum Sensor wahrzunehmen und so die Lücke zwischen digitaler Wahrnehmung und physikalischer Interaktion zu schließen.
Um ein volumetrisches Verständnis der Welt zu konstruieren, benötigen 3D-Erkennungsmodelle Eingabedaten, die geometrische Informationen enthalten . Während die Standard-Bilderkennung auf der Pixelintensität basiert, nutzen 3D-Methoden häufig die Sensorfusion, um visuelle Daten mit Tiefenmessungen zu kombinieren.
Die primären Datenquellen umfassen:
Die Fähigkeit, Tiefe und Volumen wahrzunehmen, macht die 3D-Objekterkennung zur Wahrnehmungsmaschine für Branchen, die mit der physischen Welt interagieren .
Der Unterschied zwischen diesen beiden Technologien liegt in der Dimensionalität ihrer Ergebnisse und ihren Anwendungsfällen .
Für Szenarien, die mehr Orientierungsdaten als ein einfacher quadratischer Kasten, aber weniger Rechenaufwand als vollständiges 3D erfordern, dient die OBB-Erkennung (Oriented Bounding Box) als effizienter Mittelweg. OBB wird vollständig von YOLO26, dem neuesten Ultralytics , unterstützt und ermöglicht gedrehte Erkennungen in Luftbildern oder komplexen Fertigungslinien.
Während die vollständige 3D-Erkennung oft spezielle Architekturen wie VoxelNet oder PointPillars erfordert, spielen Hochgeschwindigkeits-2D-Detektoren eine entscheidende Rolle in „frustum-basierten” 3D-Pipelines. In diesem Workflow spielt ein Modell wie YOLO11 (oder das neuere YOLO26) das Objekt im 2D-Bild. Diese 2D-Box wird dann in den 3D-Raum extrudiert, um den relevanten Abschnitt der LiDAR-Punktwolke zu isolieren und so den Suchbereich für das 3D-Modell erheblich zu reduzieren.
Das folgende Beispiel zeigt, wie man mit einem OBB-Modell eine Inferenz durchführt, indem man die
ultralytics Paket, das eine rotationsbewusste Erkennung bietet, die oft als Vorstufe für eine vollständige 3D-Analyse verwendet wird
:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")
# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")
# Display the rotated bounding box coordinates
for result in results:
# returns center_x, center_y, width, height, rotation
print(result.obb.xywhr)