Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Estimation de la profondeur

Découvrez comment l'estimation de la profondeur ajoute une perspective 3D à la vision par ordinateur. Explorez des techniques telles que la profondeur monoculaire et la vision stéréoscopique à l'aide des modèles Ultralytics .

L'estimation de la profondeur est un processus essentiel en vision par ordinateur qui détermine la distance des objets par rapport à une caméra, ajoutant ainsi une troisième dimension aux images 2D. En calculant la distance de chaque pixel d'une image, cette technique crée une carte de profondeur, une représentation où l'intensité des pixels correspond à la distance. Cette capacité imite la vision binoculaire humaine, permettant aux machines de percevoir les relations spatiales et la géométrie. Il s'agit d'une technologie fondamentale qui permet aux systèmes autonomes de naviguer en toute sécurité, de comprendre leur environnement et d'interagir avec des objets physiques.

Mécanismes et techniques fondamentaux

Il existe plusieurs façons de réaliser l'estimation de la profondeur, allant des solutions matérielles aux approches purement logicielles utilisant l'intelligence artificielle.

  • Systèmes de vision stéréoscopique : à l'instar des yeux humains, la vision stéréoscopique utilise deux caméras placées côte à côte. Des algorithmes analysent les légères différences, ou disparités, entre les images gauche et droite afin de trianguler la distance. Ce procédé repose en grande partie sur une correspondance précise des caractéristiques afin d'identifier les mêmes points dans les deux images.
  • Estimation de la profondeur monoculaire : cette méthode avancée estime la profondeur à partir d'une seule image. Étant donné qu'une simple photo 2D ne contient pas de données de profondeur intrinsèques, les modèles d'apprentissage profond sont entraînés sur de vastes ensembles de données afin de reconnaître des indices visuels tels que la perspective, la taille des objets et l'occlusion. Les architectures modernes, telles que les réseaux neuronaux convolutifs (CNN), excellent dans cette tâche, permettant ainsi de dériver une structure 3D à partir d'appareils photo standard.
  • LiDAR et temps de vol (ToF) : les capteurs actifs tels que les caméras LiDAR (détection et télémétrie par la lumière) et temps de vol émettent des impulsions lumineuses et mesurent le temps qu'elles mettent pour revenir. Ces méthodes génèrent des nuages de points très précis et sont souvent utilisées pour collecter des données de référence afin d'entraîner des modèles d'apprentissage automatique.

Applications concrètes

La capacité à mesurer les distances est source de transformation dans de nombreux secteurs, alimentant des applications qui nécessitent une conscience spatiale.

  • Conduite autonome : les voitures autonomes s'appuient sur l'estimation de la profondeur pour detect , mesurer la distance par rapport aux autres véhicules et naviguer en toute sécurité sur des réseaux routiers complexes. Elle fait partie intégrante de la détection d'objets en 3D pour identifier les piétons et les cyclistes.
  • Robotique et automatisation : les robots utilisent la perception de la profondeur pour des tâches telles que la planification de trajectoires et la manipulation d'objets. Par exemple, un robot d'entrepôt doit savoir exactement à quelle distance se trouve une étagère pour pouvoir y prélever un colis sans la heurter.
  • Réalité augmentée (RA) : pour placer de manière convaincante des objets virtuels dans une scène du monde réel, les appareils de RA doivent comprendre la géométrie 3D de l'environnement. L'estimation de la profondeur garantit que les personnages virtuels peuvent se cacher derrière des meubles réels, un concept connu sous le nom de gestion de l'occlusion.

Exemple de code : estimation de la profondeur monoculaire

Bien qu'il existe des modèles de profondeur spécialisés, vous pouvez souvent déduire les relations spatiales en utilisant les cadres de délimitation de détection d'objets comme indicateur de distance dans des scénarios simples (les cadres plus grands signifient souvent des objets plus proches). Voici comment charger un modèle à l'aide du ultralytics paquetage permettant de detect , ce qui constitue la première étape dans de nombreux pipelines tenant compte de la profondeur.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Process results
for result in results:
    # Get bounding boxes (xyxy format)
    boxes = result.boxes.xyxy

    # Iterate through detections
    for box in boxes:
        print(f"Detected object at: {box}")

Relation avec d'autres concepts de vision par ordinateur

Il est important de distinguer l'estimation de la profondeur des termes connexes. Alors que la détection d'objets identifie ce qu'est un objet et il se trouve dans l'espace 2D (à l'aide d'un cadre de sélection), l'estimation de la profondeur identifie à quelle distance il se trouve (axe Z). De même, la segmentation sémantique classe les pixels en catégories (par exemple, route, ciel, voiture), tandis que l'estimation de la profondeur attribue une valeur de distance à ces mêmes pixels.

Progrès dans le domaine de l'IA spatiale

Les progrès récents en matière d'IA générative comblent le fossé entre la vision 2D et 3D. Des techniques telles que les champs de radiance neuronaux (NeRF) utilisent plusieurs images 2D pour reconstruire des scènes 3D complexes, en s'appuyant fortement sur les principes de profondeur sous-jacents. De plus, à mesure que les techniques d'optimisation des modèles s'améliorent, il devient possible d'effectuer des estimations de profondeur très précises sur des dispositifs d'IA de pointe. Cela permet un calcul spatial en temps réel sur du matériel aussi petit que des drones ou des lunettes intelligentes, facilité par des plateformes telles que Ultralytics pour un apprentissage et un déploiement efficaces des modèles.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant