Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

3D-Objekt-Erkennung

Entdecken Sie die 3D-Objekterkennung, um räumliches Bewusstsein in der KI zu meistern. Erfahren Sie, wie Ultralytics die Schätzung von Tiefe, Ausrichtung und 3D-Begrenzungsrahmen in der realen Welt ermöglicht.

Die 3D-Objekterkennung ist eine anspruchsvolle Aufgabe der Bildverarbeitung, die es Maschinen ermöglicht, Objekte in einem dreidimensionalen Raum zu identifizieren, zu lokalisieren und deren Größe zu bestimmen . Im Gegensatz zur herkömmlichen 2D-Objekterkennung, bei der ein flacher Begrenzungsrahmen um ein Objekt in einem Bild gezogen wird, schätzt die 3D-Objekterkennung einen Quader (einen 3D-Kasten) ab, der das Objekt umschließt. Dies liefert wichtige Informationen über Tiefe, Ausrichtung (Richtung) und genaue räumliche Abmessungen, sodass Systeme nicht nur verstehen, was ein Objekt ist, sondern auch, wo es sich in der realen Welt genau in Bezug auf den Sensor befindet. Diese Fähigkeit ist von grundlegender Bedeutung für Technologien, die physisch mit ihrer Umgebung interagieren müssen.

So funktioniert die 3D-Objekterkennung

Um Tiefe und Volumen wahrzunehmen, sind 3D-Erkennungsmodelle in der Regel auf umfangreichere Dateneingaben angewiesen, als sie Standardkameras liefern. Während einige fortschrittliche Methoden 3D-Strukturen aus monokularen (Ein-Objektiv-)Bildern ableiten können, nutzen die meisten robusten Systeme Daten von LiDAR-Sensoren, Radar oder Stereokameras. Diese Sensoren erzeugen Punktwolken– riesige Sammlungen von Datenpunkten , die die Außenfläche von Objekten darstellen.

Der Prozess umfasst mehrere wichtige Schritte:

  • Datenerfassung: Sensoren erfassen die Geometrie der Szene. LiDAR beispielsweise verwendet Laserimpulse, um Entfernungen zu messen und eine präzise 3D-Karte zu erstellen.
  • Merkmalsextraktion: Deep-Learning-Modelle, die häufig auf Convolutional Neural Networks (CNNs) oder Transformers basieren, verarbeiten die Punktwolke oder die fusionierten Bilddaten, um Muster zu identifizieren.
  • Bounding-Box-Vorhersage: Das Modell gibt eine 3D-Bounding-Box aus, die durch ihre Mittelkoordinaten (x, y, z), Abmessungen (Länge, Breite, Höhe) und Drehwinkel (Gierung) definiert ist.
  • Klassifizierung: Ähnlich wie bei der Bildklassifizierung weist das System dem erkannten Objekt eine Bezeichnung zu (z. B. „Fußgänger“, „Fahrzeug“).

Unterschied zwischen 2D- und 3D-Erkennung

Es ist wichtig, zwischen diesen beiden verwandten Konzepten zu unterscheiden.

  • 2D-Objekterkennung: Funktioniert mit flachen Bildern (Pixeln). Sie gibt an, dass sich ein Objekt „oben links” oder „unten rechts” in einem Bild befindet, kann jedoch ohne Referenzmarkierungen weder die Entfernung noch die tatsächliche Größe effektiv beurteilen. Sie eignet sich ideal für Aufgaben wie die Identifizierung von Fertigungsfehlern oder die Analyse von Videoaufnahmen, bei denen die Tiefe weniger entscheidend ist.
  • 3D-Objekterkennung: Arbeitet im volumetrischen Raum (Voxel oder Punkte). Sie liefert die Entfernung von der Kamera (Tiefe), die physische Größe des Objekts und seine Ausrichtung. Dies ist für die Vermeidung von Kollisionen in dynamischen Umgebungen unerlässlich.

Anwendungsfälle in der Praxis

Der Übergang von der 2D- zur 3D-Wahrnehmung eröffnet leistungsstarke Anwendungsfälle in Branchen, in denen Sicherheit und räumliches Bewusstsein von größter Bedeutung sind.

  • Autonomes Fahren: Selbstfahrende Autos sind für eine sichere Navigation in hohem Maße auf 3D-Erkennung angewiesen. Durch die Verarbeitung von Daten aus LiDAR und Kameras kann das Fahrzeug detect Autos, Fußgänger und Hindernisse detect und deren genaue Entfernung und Geschwindigkeit detect . Auf diese Weise kann das Wahrnehmungssystem Trajektorien vorhersagen und Brems- oder Lenkentscheidungen in Echtzeit-Inferenzszenarien treffen. Unternehmen wie Waymo nutzen diese umfangreichen Sensor-Suiten, um städtische Umgebungen sofort zu kartieren.
  • Robotik und Bin Picking: In der Logistik und Lagerhaltung müssen Roboter Objekte unterschiedlicher Formen und Größen aus Behältern entnehmen. Dank 3D-Erkennung kann ein Roboterarm die Ausrichtung eines Pakets erkennen, den besten Greifpunkt bestimmen und einen kollisionsfreien Weg zum Transport des Gegenstands planen. Dies erhöht die Effizienz der KI in der Logistik, indem komplexe manuelle Aufgaben automatisiert werden.

Implementierung der Objekterkennung mit Ultralytics

Während die vollständige 3D-Erkennung oft spezielle Punktwolkenarchitekturen erfordert, werden moderne 2D-Detektoren wie YOLO26 zunehmend als Komponente in Pseudo-3D-Workflows oder zur Tiefenschätzung durch Skalierung von Begrenzungsrahmen eingesetzt. Für Entwickler, die Modelle auf ihren eigenen Datensätzen trainieren möchten , bietet die Ultralytics eine optimierte Umgebung für Annotation und Training.

Hier ist ein einfaches Beispiel dafür, wie man eine Standarderkennung mit der Ultralytics Python durchführt, was oft der erste Schritt in einer größeren Wahrnehmungs-Pipeline ist:

import cv2
from ultralytics import YOLO

# Load the YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Perform inference on a local image
results = model("path/to/image.jpg")

# Visualize the results
for result in results:
    # Plot predictions on the image (returns a numpy array)
    im_array = result.plot()

    # Display using OpenCV
    cv2.imshow("Detections", im_array)
    cv2.waitKey(0)  # Press any key to close
    cv2.destroyAllWindows()

Herausforderungen und zukünftige Trends

Trotz ihrer Nützlichkeit steht die 3D-Objekterkennung vor Herausforderungen hinsichtlich Rechenaufwand und Sensorkosten. Die Verarbeitung von Millionen von Punkten in einer Punktwolke erfordert GPU erhebliche GPU , was den Einsatz auf Edge-Geräten erschwert. Innovationen bei der Modellquantisierung und effizienten neuronalen Architekturen reduzieren jedoch diese Belastung.

Darüber hinaus verbessern Techniken wie die Sensorfusion die Genauigkeit, indem sie die reichhaltigen Farbinformationen von Kameras mit den präzisen Tiefendaten von LiDAR kombinieren. Mit der Weiterentwicklung dieser Technologien ist zu erwarten, dass die 3D-Wahrnehmung in zugänglichere Geräte integriert wird, von Augmented-Reality-Brillen bis hin zu intelligenten Haushaltsgeräten.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten