Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

3D-Objekt-Erkennung

Erkunden Sie die 3D-Objekterkennung: Wie LiDAR, Punktwolken und Deep Learning präzise 3D-Bounding Boxes für autonome Fahrzeuge, Robotik und AR erstellen.

Die 3D-Objekterkennung ist eine fortschrittliche Computer-Vision-Technik (CV), die Objekte in einer dreidimensionalen Umgebung identifiziert, klassifiziert und lokalisiert. Im Gegensatz zur herkömmlichen 2D-Objekterkennung, bei der ein flacher rechteckiger Begrenzungsrahmen um ein Objekt auf einer Bildebene gezogen wird , schätzt die 3D-Objekterkennung einen räumlichen Quader. Dieser Volumen wird durch sieben Schlüsselparameter definiert: die Mittelkoordinaten (x, y, z), die physikalischen Abmessungen (Länge, Breite, Höhe) und die Ausrichtung (Kurswinkel). Diese reichhaltigen räumlichen Daten ermöglichen es künstlichen Intelligenzsystemen (KI), die tatsächliche Größe, Entfernung und Position von Objekten relativ zum Sensor wahrzunehmen und so die Lücke zwischen digitaler Wahrnehmung und physikalischer Interaktion zu schließen.

So funktioniert die 3D-Objekterkennung

Um ein volumetrisches Verständnis der Welt zu konstruieren, benötigen 3D-Erkennungsmodelle Eingabedaten, die geometrische Informationen enthalten . Während die Standard-Bilderkennung auf der Pixelintensität basiert, nutzen 3D-Methoden häufig die Sensorfusion, um visuelle Daten mit Tiefenmessungen zu kombinieren.

Die primären Datenquellen umfassen:

  • LiDAR (Light Detection and Ranging): Diese Sensoren senden Laserimpulse aus, um präzise Entfernungen zu messen, und erzeugen so eine spärliche, geometrische Darstellung der Szene, die als Punktwolke
  • Stereokameras: Durch die Verwendung von zwei Objektiven, die das binokulare Sehen nachahmen, berechnen diese Systeme die Tiefe anhand von Disparitätskarten, was die Rekonstruktion von 3D-Strukturen aus visuellen Versätzen ermöglicht.
  • Monokulare Tiefenvorhersage: Fortschrittliche Deep-Learning-Algorithmen (DL) können die Tiefe aus einem einzigen 2D-Bild ableiten, eine Technik, die oft als „Pseudo-LiDAR” bezeichnet wird, obwohl sie im Allgemeinen eine geringere Genauigkeit als aktive Sensoren bietet.

Anwendungsfälle in der Praxis

Die Fähigkeit, Tiefe und Volumen wahrzunehmen, macht die 3D-Objekterkennung zur Wahrnehmungsmaschine für Branchen, die mit der physischen Welt interagieren .

  • Autonome Fahrzeuge: Selbstfahrende Autos sind auf 3D-Erkennung angewiesen, um track Flugbahn, Geschwindigkeit und Richtung des umgebenden Verkehrs track . Durch die Verarbeitung von Daten aus dem Waymo Open Dataset oder dem nuScenes-Datensatz können diese Fahrzeuge potenzielle Kollisionen vorhersagen und sichere Wege durch dynamische Umgebungen planen.
  • Robotik: Industrieroboter nutzen 3D-Wahrnehmung, um „Bin Picking” durchzuführen. Ein Roboterarm muss die genaue 3D-Position eines Teils verstehen, um es korrekt aus einem Stapel zu greifen. Diese Fähigkeit ist in moderne Arbeitsabläufe integriert, die Tools wie Open3D für die Datenverarbeitung nutzen.
  • Augmented Reality (AR): Um virtuelle Charaktere oder Informationen auf realen Oberflächen zu verankern, verwenden Frameworks wie Google 3D-Erkennung, um die Geometrie der Umgebung abzubilden und sicherzustellen, dass digitale Assets perfekt auf den physischen Boden oder Tische abgestimmt sind.

3D- vs. 2D-Objekterkennung

Der Unterschied zwischen diesen beiden Technologien liegt in der Dimensionalität ihrer Ergebnisse und ihren Anwendungsfällen .

  • 2D-Objekterkennung: Arbeitet im Bildschirmbereich (Pixel). Sie ermöglicht Echtzeit-Inferenz für Aufgaben wie die Identifizierung einer Person in einem Videobild, kann jedoch nicht sagen, wie weit die Person in Metern entfernt ist.
  • 3D-Objekterkennung: Arbeitet im Weltraum (Meter). Sie behandelt Okklusion effektiv und liefert die notwendigen Koordinatendaten für einen Roboter, um physisch um ein Objekt herum zu navigieren.

Für Szenarien, die mehr Orientierungsdaten als ein einfacher quadratischer Kasten, aber weniger Rechenaufwand als vollständiges 3D erfordern, dient die OBB-Erkennung (Oriented Bounding Box) als effizienter Mittelweg. OBB wird vollständig von YOLO26, dem neuesten Ultralytics , unterstützt und ermöglicht gedrehte Erkennungen in Luftbildern oder komplexen Fertigungslinien.

Integration mit Ultralytics YOLO

Während die vollständige 3D-Erkennung oft spezielle Architekturen wie VoxelNet oder PointPillars erfordert, spielen Hochgeschwindigkeits-2D-Detektoren eine entscheidende Rolle in „frustum-basierten” 3D-Pipelines. In diesem Workflow spielt ein Modell wie YOLO11 (oder das neuere YOLO26) das Objekt im 2D-Bild. Diese 2D-Box wird dann in den 3D-Raum extrudiert, um den relevanten Abschnitt der LiDAR-Punktwolke zu isolieren und so den Suchbereich für das 3D-Modell erheblich zu reduzieren.

Das folgende Beispiel zeigt, wie man mit einem OBB-Modell eine Inferenz durchführt, indem man die ultralytics Paket, das eine rotationsbewusste Erkennung bietet, die oft als Vorstufe für eine vollständige 3D-Analyse verwendet wird :

from ultralytics import YOLO

# Load a pre-trained YOLO26 model capable of Oriented Bounding Box detection
model = YOLO("yolo26n-obb.pt")

# Perform inference on an image (e.g., aerial view or slanted objects)
results = model("https://docs.ultralytics.com/datasets/obb/dota-v2/")

# Display the rotated bounding box coordinates
for result in results:
    # returns center_x, center_y, width, height, rotation
    print(result.obb.xywhr)

Verwandte Konzepte

  • Tiefenschätzung: Eine pixelweise Vorhersageaufgabe, die eine Tiefenkarte einer Szene erstellt. Im Gegensatz zur Objekterkennung identifiziert sie keine einzelnen Objektinstanzen oder deren Klassen.
  • Synthetische Daten: Künstlich generierte 3D-Szenen, die zum Trainieren von Modellen verwendet werden, wenn reale, beschriftete 3D-Daten rar oder teuer in der Erfassung sind.
  • PyTorch3D: Eine Bibliothek, die effiziente, wiederverwendbare Komponenten für die 3D-Computer-Vision-Forschung mit Deep Learning bereitstellt.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten