Depth Estimation
Lerne, wie Tiefenschätzung eine 3D-Perspektive zur Computer Vision hinzufügt. Erkunde Techniken wie monokulare Tiefe und Stereosehen mit Ultralytics YOLO26-Modellen.
Tiefenschätzung ist ein entscheidender Prozess in der Computer Vision, der die Entfernung von Objekten zu einer Kamera bestimmt und 2D-Bildern effektiv eine dritte Dimension hinzufügt. Durch die Berechnung der Entfernung jedes Pixels in einem Bild erstellt diese Technik eine Tiefenkarte, eine Darstellung, bei der die Pixelintensität der Entfernung entspricht. Diese Fähigkeit ahmt das menschliche binokulare Sehen nach und ermöglicht es Maschinen, räumliche Beziehungen und Geometrie wahrzunehmen. Sie ist eine grundlegende Technologie, die es autonomen Systemen ermöglicht, sicher zu navigieren, ihre Umgebung zu verstehen und mit physischen Objekten zu interagieren.
Link to this sectionKernmechanismen und Techniken#
Es gibt verschiedene Möglichkeiten, eine Tiefenschätzung zu erreichen, die von hardwarebasierten Lösungen bis hin zu rein softwaregestützten Ansätzen mittels künstlicher Intelligenz reichen.
- Stereo-Vision-Systeme: Ähnlich wie das menschliche Auge verwendet Stereo-Vision zwei nebeneinander angeordnete Kameras. Algorithmen analysieren die geringfügigen Unterschiede, oder Disparität, zwischen dem linken und dem rechten Bild, um die Entfernung zu triangulieren. Dies stützt sich stark auf eine präzise Merkmalszuordnung, um dieselben Punkte in beiden Frames zu identifizieren.
- Monokulare Tiefenschätzung: Diese fortschrittliche Methode schätzt die Tiefe aus einem einzelnen Bild. Da einem einzelnen 2D-Foto inhärente Tiefendaten fehlen, werden Deep-Learning-Modelle auf riesigen Datensätzen trainiert, um visuelle Hinweise wie Perspektive, Objektgröße und Verdeckung zu erkennen. Moderne Architekturen wie Convolutional Neural Networks (CNNs) zeichnen sich bei dieser Aufgabe aus und ermöglichen es, 3D-Strukturen aus Standardkameras abzuleiten.
- LiDAR und Time-of-Flight (ToF): Aktive Sensoren wie LiDAR (Light Detection and Ranging) und Time-of-Flight-Kameras senden Lichtimpulse aus und messen die Zeit, die sie benötigen, um zurückzukehren. Diese Methoden erzeugen hochpräzise Punktwolken und werden häufig verwendet, um Ground-Truth-Daten für das Training von Machine-Learning-Modellen zu sammeln.
Link to this sectionPraxisanwendungen#
Die Fähigkeit, Entfernungen zu messen, ist in vielen Branchen transformativ und treibt Anwendungen voran, die räumliches Bewusstsein erfordern.
- Autonomes Fahren: Selbstfahrende Autos verlassen sich auf die Tiefenschätzung, um Hindernisse zu erkennen, die Entfernung zu anderen Fahrzeugen zu messen und sicher durch komplexe Straßennetze zu navigieren. Sie ist integraler Bestandteil der 3D-Objekterkennung zur Identifizierung von Fußgängern und Radfahrern.
- Robotik und Automatisierung: Roboter nutzen Tiefenwahrnehmung für Aufgaben wie Pfadplanung und Objektmanipulation. Ein Lagerroboter muss beispielsweise genau wissen, wie weit ein Regal entfernt ist, um ein Paket aufzunehmen, ohne mit diesem zu kollidieren.
- Augmented Reality (AR): Um virtuelle Objekte überzeugend in eine reale Szene einzubetten, müssen AR-Geräte die 3D-Geometrie der Umgebung verstehen. Die Tiefenschätzung stellt sicher, dass sich virtuelle Charaktere hinter echten Möbeln verstecken können, ein Konzept, das als Okklusionsbehandlung bekannt ist.
Link to this sectionCode-Beispiel: Monokulare Tiefenschätzung#
Obwohl es spezialisierte Tiefenmodelle gibt, kannst du in einfachen Szenarien oft räumliche Beziehungen mithilfe von Begrenzungsrahmen der Objekterkennung als Stellvertreter für die Entfernung ableiten (größere Rahmen bedeuten oft nähere Objekte). Hier erfährst du, wie du ein Modell mit dem ultralytics-Paket lädst, um Objekte zu erkennen – der erste Schritt in vielen tiefenbewussten Pipelines.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Process results
for result in results:
# Get bounding boxes (xyxy format)
boxes = result.boxes.xyxy
# Iterate through detections
for box in boxes:
print(f"Detected object at: {box}")Link to this sectionVerhältnis zu anderen Computer-Vision-Konzepten#
Es ist wichtig, die Tiefenschätzung von verwandten Begriffen zu unterscheiden. Während die Objekterkennung identifiziert, was und wo sich ein Objekt im 2D-Raum befindet (unter Verwendung eines Begrenzungsrahmens), identifiziert die Tiefenschätzung, wie weit es entfernt ist (Z-Achse). Ähnlich dazu klassifiziert die semantische Segmentierung Pixel in Kategorien (z. B. Straße, Himmel, Auto), wohingegen die Tiefenschätzung denselben Pixeln einen Entfernungswert zuweist.
Link to this sectionFortschritte in Spatial AI#
Jüngste Fortschritte bei generativer KI überbrücken die Lücke zwischen 2D- und 3D-Vision. Techniken wie Neural Radiance Fields (NeRF) verwenden mehrere 2D-Bilder, um komplexe 3D-Szenen zu rekonstruieren, wobei sie sich stark auf zugrunde liegende Tiefenprinzipien stützen. Darüber hinaus wird durch die Verbesserung von Modelloptimierungstechniken die Ausführung einer hochpräzisen Tiefenschätzung auf Edge-KI-Geräten machbar. Dies ermöglicht Echtzeit-Spatial-Computing auf Hardware, die so klein wie Drohnen oder smarte Brillen ist, unterstützt durch Plattformen wie die Ultralytics Platform für effizientes Modelltraining und Deployment.






