Erfahren Sie, wie Tiefenschätzung der Computervision eine 3D-Perspektive verleiht. Entdecken Sie Techniken wie monokulare Tiefen- und Stereosicht mit Ultralytics .
Die Tiefenschätzung ist ein wichtiger Prozess in der Bildverarbeitung, der die Entfernung von Objekten von einer Kamera bestimmt und 2D-Bildern effektiv eine dritte Dimension hinzufügt. Durch die Berechnung der Entfernung jedes Pixels in einem Bild erstellt diese Technik eine Tiefenkarte, eine Darstellung, in der die Pixelintensität der Entfernung entspricht. Diese Fähigkeit ahmt das menschliche binokulare Sehen nach und ermöglicht es Maschinen, räumliche Beziehungen und Geometrien wahrzunehmen. Sie ist eine grundlegende Technologie, die es autonomen Systemen ermöglicht, sicher zu navigieren, ihre Umgebung zu verstehen und mit physischen Objekten zu interagieren.
Es gibt mehrere Möglichkeiten, eine Tiefenschätzung zu erreichen, die von hardwarebasierten Lösungen bis hin zu rein softwaregesteuerten Ansätzen unter Verwendung künstlicher Intelligenz reichen.
Die Fähigkeit, Entfernungen zu messen, ist in vielen Branchen transformativ und ermöglicht Anwendungen, die räumliches Bewusstsein erfordern.
Es gibt zwar spezielle Tiefenmodelle, aber in einfachen Szenarien können Sie räumliche Beziehungen oft anhand von Begrenzungsrahmen für die Objekterkennung
als Ersatz für die Entfernung ableiten (größere Rahmen bedeuten oft näher gelegene Objekte). So laden Sie ein Modell
mit dem ultralytics Paket zur detect , das den ersten Schritt in vielen tiefenbewussten Pipelines darstellt.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Process results
for result in results:
# Get bounding boxes (xyxy format)
boxes = result.boxes.xyxy
# Iterate through detections
for box in boxes:
print(f"Detected object at: {box}")
Es ist wichtig, die Tiefenschätzung von verwandten Begriffen zu unterscheiden. Während die Objekterkennung identifiziert, was und wo sich ein Objekt im 2D-Raum befindet (mithilfe eines Begrenzungsrahmens), identifiziert die Tiefenschätzung, wie weit es entfernt ist (Z-Achse). In ähnlicher Weise klassifiziert die semantische Segmentierung Pixel in Kategorien (z. B. Straße, Himmel, Auto), während die Tiefenschätzung denselben Pixeln einen Entfernungswert zuweist.
Jüngste Fortschritte in der generativen KI schließen die Lücke zwischen 2D- und 3D-Vision. Techniken wie Neural Radiance Fields (NeRF) verwenden mehrere 2D-Bilder, um komplexe 3D-Szenen zu rekonstruieren, wobei sie sich stark auf zugrunde liegende Tiefenprinzipien stützen. Darüber hinaus wird mit der Verbesserung der Modelloptimierungstechniken die Durchführung hochpräziser Tiefenschätzungen auf Edge-KI-Geräten möglich. Dies ermöglicht Echtzeit-Raumdatenverarbeitung auf so kleinen Geräten wie Drohnen oder Smart-Brillen, unterstützt durch Plattformen wie die Ultralytics für effizientes Modelltraining und -einsatz.