Découvrez comment l'estimation de la profondeur ajoute une perspective 3D à la vision par ordinateur. Explorez des techniques telles que la profondeur monoculaire et la vision stéréoscopique à l'aide des modèles Ultralytics .
L'estimation de la profondeur est un processus essentiel en vision par ordinateur qui détermine la distance des objets par rapport à une caméra, ajoutant ainsi une troisième dimension aux images 2D. En calculant la distance de chaque pixel d'une image, cette technique crée une carte de profondeur, une représentation où l'intensité des pixels correspond à la distance. Cette capacité imite la vision binoculaire humaine, permettant aux machines de percevoir les relations spatiales et la géométrie. Il s'agit d'une technologie fondamentale qui permet aux systèmes autonomes de naviguer en toute sécurité, de comprendre leur environnement et d'interagir avec des objets physiques.
Il existe plusieurs façons de réaliser l'estimation de la profondeur, allant des solutions matérielles aux approches purement logicielles utilisant l'intelligence artificielle.
La capacité à mesurer les distances est source de transformation dans de nombreux secteurs, alimentant des applications qui nécessitent une conscience spatiale.
Bien qu'il existe des modèles de profondeur spécialisés, vous pouvez souvent déduire les relations spatiales en utilisant les cadres de délimitation de détection d'objets
comme indicateur de distance dans des scénarios simples (les cadres plus grands signifient souvent des objets plus proches). Voici comment charger un modèle
à l'aide du ultralytics paquetage permettant de detect , ce qui constitue la première étape dans de nombreux pipelines tenant compte de la profondeur.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Process results
for result in results:
# Get bounding boxes (xyxy format)
boxes = result.boxes.xyxy
# Iterate through detections
for box in boxes:
print(f"Detected object at: {box}")
Il est important de distinguer l'estimation de la profondeur des termes connexes. Alors que la détection d'objets identifie ce qu'est un objet et où il se trouve dans l'espace 2D (à l'aide d'un cadre de sélection), l'estimation de la profondeur identifie à quelle distance il se trouve (axe Z). De même, la segmentation sémantique classe les pixels en catégories (par exemple, route, ciel, voiture), tandis que l'estimation de la profondeur attribue une valeur de distance à ces mêmes pixels.
Les progrès récents en matière d'IA générative comblent le fossé entre la vision 2D et 3D. Des techniques telles que les champs de radiance neuronaux (NeRF) utilisent plusieurs images 2D pour reconstruire des scènes 3D complexes, en s'appuyant fortement sur les principes de profondeur sous-jacents. De plus, à mesure que les techniques d'optimisation des modèles s'améliorent, il devient possible d'effectuer des estimations de profondeur très précises sur des dispositifs d'IA de pointe. Cela permet un calcul spatial en temps réel sur du matériel aussi petit que des drones ou des lunettes intelligentes, facilité par des plateformes telles que Ultralytics pour un apprentissage et un déploiement efficaces des modèles.