Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Abschätzung der Tiefe

Erfahren Sie, wie Tiefenschätzung der Computervision eine 3D-Perspektive verleiht. Entdecken Sie Techniken wie monokulare Tiefen- und Stereosicht mit Ultralytics .

Die Tiefenschätzung ist ein wichtiger Prozess in der Bildverarbeitung, der die Entfernung von Objekten von einer Kamera bestimmt und 2D-Bildern effektiv eine dritte Dimension hinzufügt. Durch die Berechnung der Entfernung jedes Pixels in einem Bild erstellt diese Technik eine Tiefenkarte, eine Darstellung, in der die Pixelintensität der Entfernung entspricht. Diese Fähigkeit ahmt das menschliche binokulare Sehen nach und ermöglicht es Maschinen, räumliche Beziehungen und Geometrien wahrzunehmen. Sie ist eine grundlegende Technologie, die es autonomen Systemen ermöglicht, sicher zu navigieren, ihre Umgebung zu verstehen und mit physischen Objekten zu interagieren.

Kernmechanismen und -techniken

Es gibt mehrere Möglichkeiten, eine Tiefenschätzung zu erreichen, die von hardwarebasierten Lösungen bis hin zu rein softwaregesteuerten Ansätzen unter Verwendung künstlicher Intelligenz reichen.

  • Stereo-Vision-Systeme: Ähnlich wie das menschliche Auge verwendet die Stereo-Vision zwei nebeneinander platzierte Kameras . Algorithmen analysieren die geringfügigen Unterschiede oder Disparitäten zwischen dem linken und dem rechten Bild, um die Entfernung zu triangulieren. Dies hängt in hohem Maße von einergenauen Merkmalsabgleichung ab, um die gleichen Punkte in beiden Bildern zu identifizieren.
  • Monokulare Tiefenschätzung: Diese fortschrittliche Methode schätzt die Tiefe anhand eines einzelnen Bildes. Da einem einzelnen 2D-Foto die inhärenten Tiefendaten fehlen, werden Deep-Learning-Modelle anhand umfangreicher Datensätze trainiert, um visuelle Hinweise wie Perspektive, Objektgröße und Okklusion zu erkennen. Moderne Architekturen wie Convolutional Neural Networks (CNNs) eignen sich hervorragend für diese Aufgabe und ermöglichen es, aus Standardkameras eine 3D-Struktur abzuleiten.
  • LiDAR und Time-of-Flight (ToF): Aktive Sensoren wie LiDAR (Light Detection and Ranging) und Time-of-Flight-Kameras senden Lichtimpulse aus und messen die Zeit, die diese benötigen, um zurückzukehren. Diese Methoden erzeugen hochpräzise Punktwolken und werden häufig zur Erfassung von Bodenwahrheitsdaten für das Training von Modellen für maschinelles Lernen verwendet.

Anwendungsfälle in der Praxis

Die Fähigkeit, Entfernungen zu messen, ist in vielen Branchen transformativ und ermöglicht Anwendungen, die räumliches Bewusstsein erfordern.

  • Autonomes Fahren: Selbstfahrende Autos sind auf Tiefenschätzung angewiesen, um detect , den Abstand zu anderen Fahrzeugen zu messen und sicher durch komplexe Straßennetze zu navigieren. Dies ist ein wesentlicher Bestandteil der 3D-Objekterkennung zur Identifizierung von Fußgängern und Radfahrern.
  • Robotik und Automatisierung: Roboter nutzen Tiefenwahrnehmung für Aufgaben wie Wegplanung und Objektmanipulation. Ein Lagerroboter muss beispielsweise genau wissen, wie weit ein Regal entfernt ist, um ein Paket aufzunehmen, ohne damit zu kollidieren.
  • Augmented Reality (AR): Um virtuelle Objekte überzeugend in eine reale Umgebung einzufügen, müssen AR-Geräte die 3D-Geometrie der Umgebung verstehen. Die Tiefenschätzung stellt sicher, dass sich virtuelle Charaktere hinter realen Möbeln verstecken können, ein Konzept, das als Okklusionsbehandlung bekannt ist.

Code-Beispiel: Monokulare Tiefenschätzung

Es gibt zwar spezielle Tiefenmodelle, aber in einfachen Szenarien können Sie räumliche Beziehungen oft anhand von Begrenzungsrahmen für die Objekterkennung als Ersatz für die Entfernung ableiten (größere Rahmen bedeuten oft näher gelegene Objekte). So laden Sie ein Modell mit dem ultralytics Paket zur detect , das den ersten Schritt in vielen tiefenbewussten Pipelines darstellt.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Process results
for result in results:
    # Get bounding boxes (xyxy format)
    boxes = result.boxes.xyxy

    # Iterate through detections
    for box in boxes:
        print(f"Detected object at: {box}")

Beziehung zu anderen Konzepten der Bildverarbeitung

Es ist wichtig, die Tiefenschätzung von verwandten Begriffen zu unterscheiden. Während die Objekterkennung identifiziert, was und wo sich ein Objekt im 2D-Raum befindet (mithilfe eines Begrenzungsrahmens), identifiziert die Tiefenschätzung, wie weit es entfernt ist (Z-Achse). In ähnlicher Weise klassifiziert die semantische Segmentierung Pixel in Kategorien (z. B. Straße, Himmel, Auto), während die Tiefenschätzung denselben Pixeln einen Entfernungswert zuweist.

Fortschritte in der räumlichen KI

Jüngste Fortschritte in der generativen KI schließen die Lücke zwischen 2D- und 3D-Vision. Techniken wie Neural Radiance Fields (NeRF) verwenden mehrere 2D-Bilder, um komplexe 3D-Szenen zu rekonstruieren, wobei sie sich stark auf zugrunde liegende Tiefenprinzipien stützen. Darüber hinaus wird mit der Verbesserung der Modelloptimierungstechniken die Durchführung hochpräziser Tiefenschätzungen auf Edge-KI-Geräten möglich. Dies ermöglicht Echtzeit-Raumdatenverarbeitung auf so kleinen Geräten wie Drohnen oder Smart-Brillen, unterstützt durch Plattformen wie die Ultralytics für effizientes Modelltraining und -einsatz.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten