Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Guides

Qu'est-ce que l'estimation de profondeur monoculaire ? Un aperçu

Apprends comment fonctionne l'estimation de profondeur monoculaire, comment elle se compare aux méthodes de profondeur basées sur des capteurs, et comment elle permet une perception 3D évolutive dans les systèmes de vision.

ABAbirami Vina
8 min read
Une carte de profondeur prédite créée en utilisant l'estimation de profondeur monoculaire

Les voitures autonomes sont conçues pour comprendre ce qui se passe autour d'elles afin de conduire en toute sécurité. Cela implique d'aller au-delà de la simple reconnaissance d'objets comme les piétons ou les autres véhicules.

Elles doivent également savoir à quelle distance se trouvent ces objets pour réagir correctement. Cependant, donner aux machines cette notion de distance n'est pas simple. Contrairement aux humains, elles ne perçoivent pas naturellement la profondeur à partir d'images et doivent apprendre explicitement à le faire.

L'une des raisons est que la plupart des caméras capturent le monde sous forme d'images plates en deux dimensions. Transformer ces images en quelque chose qui reflète la profondeur réelle et la structure 3D est délicat, surtout lorsque les systèmes doivent fonctionner de manière fiable dans des conditions quotidiennes.

Il est intéressant de noter que la vision par ordinateur, une branche de l'IA qui se concentre sur l'interprétation et la compréhension des données visuelles, permet aux machines de mieux appréhender le monde à partir d'images. Par exemple, l'estimation de profondeur monoculaire est une technique de vision par ordinateur qui estime la distance des objets en utilisant uniquement l'image d'une seule caméra.

En apprenant des indices visuels tels que la taille des objets, la perspective, la texture et l'ombrage, ces modèles peuvent prédire la profondeur sans dépendre de capteurs supplémentaires comme le LiDAR (Light Detection and Ranging) ou des caméras stéréo. Dans cet article, nous explorerons ce qu'est l'estimation de profondeur monoculaire, comment elle fonctionne et certaines de ses applications concrètes. Commençons !

Link to this sectionUne brève introduction à l'estimation de profondeur monoculaire#

L'estimation de profondeur monoculaire permet à une machine de comprendre à quelle distance se trouvent les objets en utilisant seulement une image. Comme elle repose sur une seule caméra, cette approche présente plusieurs avantages, notamment un coût plus faible et des exigences matérielles plus simples.

Par exemple, elle peut être utilisée dans des robots domestiques abordables qui fonctionnent avec une seule caméra. Même à partir d'une seule image, le système robotique peut identifier quels murs sont plus proches et quelles portes sont plus éloignées, et déduire la profondeur globale de l'espace.

Souvent, une seule image ne contient pas d'informations à l'échelle correcte ; l'estimation de profondeur monoculaire se concentre donc généralement sur la profondeur relative. En d'autres termes, elle permet de déterminer quels objets sont plus proches et lesquels sont plus éloignés, même si les distances exactes ne sont pas connues.

Lorsqu'un modèle est entraîné sur des données comportant des distances de référence ou une profondeur absolue, comme les mesures de profondeur provenant de capteurs tels que le LiDAR, il peut apprendre à prédire des distances en unités réelles, comme les mètres. Sans ce type de données de référence, le modèle peut toujours déduire la profondeur relative mais ne peut pas estimer de manière fiable les distances absolues.

Le résultat de l'estimation de profondeur monoculaire est généralement une carte de profondeur, qui est une image où chaque pixel représente la proximité ou l'éloignement de cette partie de la scène. Une carte de profondeur fournit aux systèmes de vision une compréhension de base de la structure 3D de l'environnement.

Un exemple de carte de profondeur prédite créée à l'aide de l'estimation de profondeur monoculaire

Fig 1. Un exemple de carte de profondeur prédite créée à l'aide de l'estimation de profondeur monoculaire (Source)

Link to this sectionDes capteurs aux images : Estimer la profondeur#

L'estimation de profondeur peut être abordée de plusieurs manières, selon les capteurs disponibles, les contraintes matérielles et les exigences de précision. Les méthodes traditionnelles reposent souvent sur plusieurs points de vue ou des capteurs spécialisés pour mesurer directement la distance.

Une approche courante est la vision stéréo, qui estime la profondeur en comparant deux images synchronisées capturées depuis des points de vue légèrement différents. En mesurant la différence entre les points correspondants dans les deux images, le système peut déduire la distance des objets par rapport à la caméra.

Une autre approche consiste à utiliser des systèmes RGB-D (Rouge, Vert, Bleu et Profondeur), qui utilisent des capteurs de profondeur actifs pour mesurer directement la distance à chaque pixel. Ces systèmes peuvent fournir des informations de profondeur précises dans des environnements contrôlés, mais nécessitent du matériel supplémentaire.

Pendant ce temps, les méthodes basées sur le LiDAR utilisent des impulsions laser pour générer des représentations tridimensionnelles précises d'une scène. Bien que très précis, les capteurs LiDAR sont souvent coûteux et ajoutent une complexité matérielle significative.

En revanche, l'estimation de profondeur monoculaire déduit la profondeur en utilisant uniquement une image RGB. Parce qu'elle ne dépend pas de plusieurs caméras ou de capteurs spécialisés, elle est plus facile à déployer à grande échelle et constitue une bonne option lorsque le coût et les ressources matérielles sont limités.

Link to this sectionApprendre la profondeur à partir d'une seule image#

Lors de l'estimation de la profondeur à partir d'une seule image, les modèles de profondeur monoculaire apprennent à reconnaître les indices visuels que les humains utilisent instinctivement pour juger la distance. Ces indices incluent les lignes de perspective, la taille des objets, la densité de texture, le chevauchement des objets et l'ombrage, qui donnent tous des indications sur l'éloignement des objets par rapport à la caméra.

Ces indices fonctionnent ensemble pour créer une sensation de profondeur. Les objets qui semblent plus petits ou qui sont partiellement occultés sont souvent plus éloignés, tandis que des détails plus clairs et des apparences visuelles plus grandes suggèrent généralement que quelque chose est plus proche.

Pour apprendre ces modèles, les modèles de profondeur monoculaire sont entraînés sur de grands jeux de données d'images, souvent associés à des informations de profondeur obtenues à partir d'autres sources comme le LiDAR ou des systèmes stéréo. Pendant l'entraînement, les modèles apprennent comment les indices visuels se rapportent à la profondeur, leur permettant de déduire la distance à partir d'une seule image au moment de l'inférence.

Avec des données d'entraînement diversifiées, les modèles de vision modernes peuvent généraliser cette compréhension acquise dans un large éventail d'environnements, y compris les scènes intérieures et extérieures, et peuvent gérer des points de vue inconnus.

Link to this sectionUn regard sur diverses techniques d'estimation de profondeur monoculaire#

Ensuite, nous explorerons les principales approches utilisées pour estimer la profondeur à partir d'une seule image et comment ces méthodes ont évolué au fil du temps.

Link to this sectionApproches classiques et basées sur la géométrie#

Les premières méthodes d'estimation de la profondeur reposaient sur des règles visuelles simples liées à la géométrie de la caméra. Des indices comme la perspective, la taille des objets et le fait qu'un objet en bloque un autre étaient utilisés pour estimer la distance.

Par exemple, lorsque deux objets similaires apparaissaient avec des tailles différentes, le plus petit était supposé être plus éloigné. Ces approches fonctionnaient raisonnablement bien dans des environnements contrôlés où des facteurs comme l'éclairage, la position de la caméra et la disposition de la scène restaient cohérents.

Cependant, dans les scènes réelles, ces hypothèses échouent souvent. Les variations d'éclairage, les changements de point de vue et la complexité accrue de la scène peuvent conduire à des estimations de profondeur peu fiables, limitant l'efficacité des méthodes classiques dans des environnements non contrôlés.

Link to this sectionPremières approches d'apprentissage automatique#

Les premières méthodes d'apprentissage automatique ont apporté plus de flexibilité à l'estimation de profondeur en apprenant les modèles directement à partir des données. Au lieu de se fier uniquement à des règles géométriques fixes, ces modèles ont tenté d'apprendre la relation entre les informations visuelles et la distance, en traitant la prédiction de profondeur comme un problème de régression basé sur des indices tels que les bords, les textures et les changements de couleur.

La sélection de ces caractéristiques était une partie clé du processus. Les ingénieurs devaient décider quels signaux visuels extraire et comment les représenter, et la performance du modèle dépendait fortement de ces choix.

Bien que cette approche ait mieux fonctionné que les méthodes précédentes, elle avait tout de même des limites. Si les caractéristiques sélectionnées manquaient de contexte important, les prédictions de profondeur étaient moins précises. À mesure que les scènes devenaient plus complexes et variées, ces modèles peinaient souvent à produire des résultats fiables.

Link to this sectionAlgorithmes d'apprentissage profond#

La plupart des systèmes modernes d'estimation de profondeur monoculaire utilisent l'apprentissage profond, qui fait référence à des réseaux de neurones avec de nombreuses couches capables d'apprendre des modèles complexes à partir de données. Ces modèles apprennent à prédire la profondeur directement à partir des images et produisent des cartes de profondeur.

De nombreuses approches sont construites en utilisant des réseaux de neurones convolutifs (CNN), un type de réseau de neurones conçu pour traiter les images en détectant des motifs tels que des bords et des formes. Ces modèles utilisent souvent une configuration encodeur-décodeur : l'encodeur extrait les caractéristiques visuelles de l'image, et le décodeur convertit ces caractéristiques en une carte de profondeur. Traiter l'image à plusieurs échelles aide le modèle à capturer la disposition globale de la scène tout en conservant des contours d'objets clairs.

Des modèles plus récents se concentrent sur la compréhension des relations entre différentes parties d'une image. Les modèles basés sur les Transformer et les Vision Transformer (ViT) utilisent des mécanismes d'attention, qui permettent au modèle d'identifier quelles régions d'une image sont les plus pertinentes et de relier des zones distantes entre elles. Cela aide le modèle à construire une compréhension plus cohérente de la profondeur à travers toute la scène.

Certains systèmes combinent les deux idées. Les modèles hybrides CNN-Transformer utilisent des CNN pour capturer les détails locaux fins et des Transformers pour modéliser le contexte global de la scène. Bien que cela améliore souvent la précision, cela nécessite généralement plus de ressources informatiques, comme de la mémoire et une puissance de traitement supplémentaires.

Link to this sectionPourquoi la compréhension de la profondeur est importante pour les systèmes d'IA de vision#

Alors que tu découvres l'estimation de profondeur monoculaire, tu te demandes peut-être pourquoi la compréhension de la profondeur est un élément si important des systèmes d'IA basés sur la vision.

Lorsqu'un système peut estimer à quelle distance se trouvent les objets et les surfaces, il obtient une meilleure compréhension de la disposition d'une scène et de la manière dont les différents éléments interagissent entre eux. Ce type de conscience spatiale est essentiel pour prendre des décisions fiables, en particulier dans des applications concrètes comme la conduite autonome.

Les informations de profondeur ajoutent également un contexte précieux à d'autres tâches de vision par ordinateur. Par exemple, la détection d'objets, prise en charge par des modèles comme Ultralytics YOLO26, peut dire à un système ce qui est présent dans une scène, mais la profondeur aide à répondre à la question de savoir où ces objets sont situés par rapport à la caméra et les uns par rapport aux autres.

Ensemble, ces capacités permettent un large éventail d'applications d'IA de vision, telles que la construction de cartes 3D, la navigation dans des environnements complexes et la compréhension d'une scène dans son ensemble.

Les robots et les véhicules autonomes dépendent de ces informations pour se déplacer en toute sécurité, éviter les obstacles et réagir aux changements en temps réel. Par exemple, l'approche de conduite par vision seule de Tesla repose sur des images de caméra combinées à l'estimation de profondeur, plutôt que sur le LiDAR, pour comprendre à quelle distance se trouvent les objets et comment ils sont positionnés sur la route.

Link to this sectionComment fonctionnent les modèles d'estimation de profondeur monoculaire#

Bien que les architectures de modèles varient, la plupart des modèles d'estimation de profondeur monoculaire suivent un processus similaire pour convertir une seule image en carte de profondeur. Voici un bref aperçu des étapes clés impliquées :

  • Entrée et prétraitement : Le flux de travail commence par une image d'entrée. Avant d'être transmise au modèle, l'image originale est généralement redimensionnée, normalisée et convertie en un tenseur, qui est un format que les réseaux de neurones utilisent pour traiter efficacement les données d'image.
  • Extraction de caractéristiques : Un réseau encodeur analyse l'image pour extraire des caractéristiques visuelles significatives. Ces caractéristiques capturent des informations telles que les textures, les contours des objets et la disposition globale de la scène. La plupart des modèles fonctionnent à plusieurs échelles afin de pouvoir comprendre à la fois les détails fins et la structure globale.
  • Raisonnement sur la profondeur : En utilisant les caractéristiques extraites, le modèle combine les détails locaux avec le contexte global pour raisonner sur les relations spatiales dans la scène. À ce stade, il apprend quelles régions de l'image sont les plus proches de la caméra et lesquelles sont les plus éloignées.
  • Génération de carte de profondeur : Un décodeur convertit ensuite ces informations en une carte de profondeur dense. Chaque pixel de l'image se voit attribuer une valeur de profondeur, souvent en mélangeant les prédictions de différentes échelles pour améliorer la précision et la cohérence.

Link to this sectionComment les modèles d'estimation de profondeur monoculaire sont entraînés#

Le processus dont nous venons de discuter suppose que nous avons déjà un modèle entraîné ou pré-entraîné. Mais comment fonctionne réellement l'entraînement d'un modèle d'estimation de profondeur monoculaire ?

L'entraînement commence par la préparation des données d'image afin qu'elles puissent être traitées efficacement par le réseau. Les images d'entrée sont redimensionnées et normalisées à une échelle cohérente, puis transmises au modèle pour générer une carte de profondeur prédite qui estime la distance à chaque pixel.

La carte de profondeur prédite est ensuite comparée aux données de profondeur de référence à l'aide d'une fonction de perte, qui mesure l'écart entre la prédiction du modèle et la profondeur réelle. Cette valeur de perte représente l'erreur actuelle du modèle et fournit un signal pour l'amélioration.

Un optimiseur utilise ce signal pour mettre à jour le modèle en ajustant ses poids internes. Pour ce faire, l'optimiseur calcule le gradient, qui décrit comment la perte change par rapport à chaque paramètre du modèle, et applique ces mises à jour de manière répétée sur plusieurs époques, ou passes complètes à travers le jeu de données d'entraînement.

Ce processus itératif d'apprentissage supervisé est guidé par des hyperparamètres tels que le taux d'apprentissage, qui contrôle l'importance de chaque étape de mise à jour, et la taille du lot, qui détermine combien d'images sont traitées simultanément. Parce que l'entraînement implique un grand nombre d'opérations mathématiques, il est généralement accéléré à l'aide d'une unité de traitement graphique (GPU), qui est idéale pour le calcul parallèle.

Une fois l'entraînement terminé, le modèle est évalué à l'aide de métriques d'évaluation standard sur un ensemble de validation, qui consiste en des images qui n'ont pas été utilisées pendant l'entraînement. Cette évaluation aide à mesurer à quel point le modèle se généralise aux nouvelles données.

Le modèle entraîné peut ensuite être réutilisé ou affiné pour de nouveaux scénarios. Dans l'ensemble, ce processus d'entraînement permet aux modèles d'estimation de profondeur monoculaire de produire des estimations de profondeur cohérentes, essentielles pour les tâches en aval telles que la reconstruction 3D et le déploiement réel.

Link to this sectionExplorer les modèles de pointe et les tendances de recherche#

L'estimation de profondeur monoculaire s'est rapidement améliorée à mesure que les modèles sont devenus plus performants pour comprendre des scènes entières plutôt que seulement de petits détails visuels. Les premières approches produisaient souvent des cartes de profondeur inégales, surtout dans des environnements complexes.

Les modèles plus récents, comme on peut le voir dans les recherches récentes publiées sur arXiv, se concentrent davantage sur un contexte global, ce qui conduit à des prédictions de profondeur qui semblent plus stables et réalistes. Des modèles bien connus tels que MiDaS et DPT ont contribué à cette transition en apprenant la profondeur à partir de jeux de données haute résolution diversifiés et en se généralisant bien à de nombreuses scènes.

Des modèles plus récents, notamment ZoeDepth et Depth Anything V2, s'appuient sur ces travaux en améliorant la cohérence de l'échelle tout en maintenant des performances solides dans un large éventail de paramètres. Ce type de progrès est souvent mesuré à l'aide de jeux de données de référence courants comme KITTI et NYU, qui couvrent à la fois les scènes extérieures et intérieures.

Une autre tendance claire est l'équilibre entre précision et praticité. Les modèles plus petits sont optimisés pour la vitesse et peuvent fonctionner en temps réel sur des appareils en périphérie ou mobiles, tandis que les modèles plus grands privilégient une résolution plus élevée et une précision de profondeur à longue portée.

Link to this sectionApplications de l'estimation de profondeur monoculaire#

Ensuite, passons en revue quelques exemples concrets qui montrent comment l'estimation de profondeur monoculaire est utilisée pour raisonner sur la structure 3D d'une scène à partir d'une seule image.

Dans tous ces cas, il est important de garder à l'esprit que les informations de profondeur sont une estimation déduite d'indices visuels, et non une mesure précise. Cela rend l'estimation de profondeur monoculaire utile pour comprendre la disposition relative et les relations spatiales, mais ne remplace pas les capteurs conçus pour mesurer la distance avec précision, tels que les systèmes LiDAR ou stéréo.

Link to this sectionCartographie et navigation du terrain par drone#

Les drones opèrent souvent dans des environnements où les signaux GPS ne sont pas fiables, tels que les forêts, les chantiers de construction, les zones sinistrées ou les zones urbaines denses. Pour voler en toute sécurité dans ces conditions, ils doivent comprendre le terrain environnant et savoir à quelle distance se trouvent les obstacles. Auparavant, cela nécessitait généralement l'ajout de capteurs comme le LiDAR ou des caméras stéréo, qui augmentent le poids, la consommation d'énergie et le coût global.

L'estimation de profondeur monoculaire est une alternative plus simple. En utilisant seulement une seule caméra RGB, les drones peuvent estimer la profondeur à partir d'images et construire une compréhension 3D de base de leur environnement. Cela leur permet de détecter des obstacles tels que des bâtiments, des arbres ou des changements soudains de terrain et d'ajuster leur trajectoire de vol en temps réel.

Ces estimations de profondeur soutiennent des tâches de navigation clés, notamment l'évitement d'obstacles, le contrôle de l'altitude et l'atterrissage en toute sécurité. Par conséquent, des drones légers peuvent effectuer des tâches de cartographie, d'inspection et de navigation sans compter sur des capteurs de profondeur spécialisés.

Estimation de profondeur monoculaire utilisée pour analyser l'imagerie par drone

Fig 2. L'estimation de profondeur monoculaire peut être utilisée pour analyser l'imagerie par drone (Source)

Link to this sectionCombler les angles morts pour les véhicules de course autonomes#

Les véhicules autonomes s'appuient généralement fortement sur des capteurs LiDAR, qui utilisent des impulsions laser pour mesurer la distance et construire une vue 3D de la route. Bien que très précis, le LiDAR peut avoir des difficultés avec les crêtes de route abruptes, les pentes raides, l'occlusion ou le tangage soudain du véhicule, renvoyant parfois des données de profondeur clairsemées ou manquantes.

L'estimation de profondeur monoculaire peut aider à combler ces lacunes en fournissant des informations de profondeur denses à partir d'une seule image RGB, même lorsque les données LiDAR sont incomplètes. Considère un scénario où une voiture autonome approche une crête de colline à grande vitesse. Les faisceaux LiDAR peuvent dépasser la route au-delà de la crête, laissant une incertitude sur ce qui se trouve devant.

L'estimation de profondeur basée sur la caméra, cependant, peut toujours déduire la forme de la route à partir d'indices visuels tels que la perspective et la texture, aidant le véhicule à maintenir une perception fiable jusqu'à ce que les données LiDAR se stabilisent. Ensemble, le LiDAR et l'estimation de profondeur monoculaire permettent une perception plus stable et un contrôle plus sûr dans des conditions de conduite difficiles.

Une visualisation de l'utilisation de l'estimation de profondeur monoculaire pour la course autonome

Fig 3. Une visualisation de l'utilisation de l'estimation de profondeur monoculaire pour la course autonome (Source)

Les robots sont souvent utilisés dans des endroits où des cartes détaillées ne sont pas disponibles et où les conditions changent constamment. Pour se déplacer en toute sécurité, ils ont besoin d'une idée fiable de l'espace dont ils disposent et de l'emplacement des obstacles.

L'estimation de profondeur monoculaire peut fournir cette conscience spatiale en utilisant une seule caméra RGB, sans dépendre de matériel lourd ou coûteux. En apprenant des indices visuels tels que l'échelle et la perspective, les modèles d'estimation de profondeur peuvent générer des cartes de profondeur denses des environs. Cela donne aux robots une vue claire de la distance par rapport aux surfaces et aux objets.

En particulier, lorsque les informations de profondeur sont combinées avec des tâches de vision par ordinateur telles que la détection d'objets et la segmentation sémantique, les robots peuvent obtenir une vue plus complète de leur environnement. Ils peuvent identifier les objets, comprendre leur distance et décider où il est sûr de se déplacer. Cela prend en charge l'évitement d'obstacles, la détection d'espace libre et la planification de trajectoire en temps réel.

Détection d'objets à l'aide de l'estimation de profondeur monoculaire et de la détection d'objets

Fig 4. Détection d'objets à l'aide de l'estimation de profondeur monoculaire et de la détection d'objets (Source)

Link to this sectionAvantages et inconvénients de l'estimation de profondeur monoculaire#

Voici quelques-uns des principaux avantages de l'utilisation de l'estimation de profondeur monoculaire :

  • Léger et économe en énergie : L'utilisation d'une seule caméra réduit le poids et la consommation d'énergie du système, ce qui est particulièrement important pour les robots mobiles, les drones et les systèmes embarqués.
  • Compatible avec la fusion de capteurs : La profondeur monoculaire peut compléter d'autres capteurs, tels que le LiDAR ou le radar, en comblant les lacunes ou en fournissant une redondance.
  • Fonctionne dans de nombreux environnements : La même approche basée sur la caméra peut être utilisée à l'intérieur, à l'extérieur et sur différentes plateformes sans nécessiter de changements matériels.

Bien que l'estimation de profondeur monoculaire offre des avantages évidents, voici quelques limitations à prendre en compte :

  • Précision inférieure à celle des capteurs actifs : Bien qu'elle s'améliore rapidement, l'estimation de profondeur monoculaire ne peut généralement pas égaler la précision absolue des capteurs LiDAR ou à lumière structurée dans des conditions contrôlées.
  • Sensibilité aux conditions d'éclairage : La performance peut se dégrader dans les environnements à faible luminosité, en présence d'ombres fortes, d'éblouissement ou de scènes avec peu de texture.
  • Défis de généralisation : Un modèle entraîné dans un environnement peut ne pas toujours être transféré de manière fiable vers des domaines inconnus sans adaptation ou réglage fin.

Link to this sectionQuand ne pas compter sur l'estimation de profondeur monoculaire#

Bien que l'estimation de profondeur monoculaire soit un domaine de recherche intéressant, il est important de comprendre où elle peut pratiquement être utilisée et où elle ne le peut pas. Les distances qu'elle produit sont des estimations basées sur ce que le modèle voit dans une image, et non des mesures exactes prises dans le monde réel.

Pour cette raison, la qualité des résultats peut varier en fonction de facteurs tels que l'éclairage, la complexité de la scène et la similitude de la scène avec ce sur quoi le modèle a été entraîné. L'estimation de profondeur monoculaire est généralement efficace pour distinguer ce qui est plus proche de ce qui est plus éloigné, mais elle n'est pas fiable lorsque tu as besoin de distances exactes.

Dans les situations où la précision compte vraiment, comme les systèmes critiques pour la sécurité, l'inspection industrielle ou les robots qui doivent interagir très précisément avec les objets, la profondeur doit être mesurée directement. Des capteurs comme le LiDAR, le radar, les caméras stéréo ou les systèmes à lumière structurée sont conçus pour cela et fournissent des informations de distance beaucoup plus fiables.

L'estimation de profondeur monoculaire peut également avoir des difficultés dans des conditions visuellement difficiles. Un mauvais éclairage, des ombres fortes, des surfaces réfléchissantes ou transparentes, du brouillard, de la fumée ou des scènes avec très peu de texture visuelle peuvent tous rendre les estimations de profondeur moins fiables. L'estimation de la profondeur à longue distance est un autre cas où les capteurs dédiés fonctionnent généralement mieux.

Pour ce qui est des solutions réelles, l'estimation de la profondeur monoculaire fonctionne mieux en tant qu'outil de soutien plutôt qu'en tant que solution autonome. Elle peut ajouter un contexte spatial utile, aider à combler les lacunes lorsque d'autres capteurs sont limités et améliorer la compréhension globale d'une scène. Cependant, elle ne devrait pas être l'unique source d'informations sur la profondeur lorsque la précision, la sécurité ou des exigences de fiabilité strictes sont importantes.

Link to this sectionPoints clés#

L'estimation de la profondeur monoculaire est une technique de vision par ordinateur qui permet aux machines d'estimer la distance des objets en utilisant uniquement une seule image de caméra. En apprenant des indices visuels tels que la perspective, la taille des objets, la texture et les ombres, ces modèles d'IA peuvent déduire la structure 3D d'une scène sans dépendre de capteurs comme le LiDAR ou les caméras stéréo. Cela fait de l'estimation de la profondeur monoculaire une approche rentable et évolutive pour des applications telles que la conduite autonome, la robotique et la compréhension de scènes 3D.

Pour en savoir plus sur la vision par IA, visite notre GitHub repository et rejoins notre community. Consulte nos pages de solutions pour en apprendre davantage sur l'AI in robotics et le computer vision in manufacturing. Découvre our licensing options pour commencer avec la vision par ordinateur dès aujourd'hui !

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique