En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Découvrez comment fonctionne l'estimation de profondeur monoculaire, comment elle se compare aux méthodes de profondeur basées sur des capteurs et comment elle permet une perception 3D évolutive dans les systèmes de vision.
Les voitures autonomes sont conçues pour comprendre ce qui se passe autour d'elles afin de pouvoir rouler en toute sécurité. Cela signifie qu'elles doivent aller au-delà de la simple reconnaissance d'objets tels que les piétons ou les autres véhicules.
Ils doivent également connaître la distance à laquelle se trouvent ces objets afin de réagir correctement. Cependant, il n'est pas facile de doter les machines de ce sens de la distance. Contrairement aux humains, elles ne perçoivent pas naturellement la profondeur à partir d'images et doivent apprendre explicitement à le faire.
L'une des raisons à cela est que la plupart des caméras capturent le monde sous forme d'images plates et bidimensionnelles. Il est difficile de transformer ces images en quelque chose qui reflète la profondeur et la structure 3D du monde réel, en particulier lorsque les systèmes doivent fonctionner de manière fiable dans des conditions quotidiennes.
Il est intéressant de noter que la vision par ordinateur, une branche de l'IA qui se concentre sur l'interprétation et la compréhension des données visuelles, permet aux machines de mieux comprendre le monde à partir d'images. Par exemple, l'estimation de la profondeur monoculaire est une technique de vision par ordinateur qui estime la distance des objets à l'aide d'une seule image prise par une caméra.
En apprenant à reconnaître des indices visuels tels que la taille des objets, la perspective, la texture et les ombres, ces modèles peuvent prédire la profondeur sans avoir recours à des capteurs supplémentaires tels que le LiDAR (Light Detection and Ranging) ou les caméras stéréo. Dans cet article, nous allons explorer ce qu'est l'estimation de la profondeur monoculaire, comment elle fonctionne et certaines de ses applications concrètes. C'est parti !
Une brève introduction à l'estimation de la profondeur monoculaire
L'estimation de la profondeur monoculaire permet à une machine de comprendre à quelle distance se trouvent les objets par rapport à elle à partir d'une seule image. Comme elle ne repose que sur une seule caméra, cette approche présente plusieurs avantages, notamment un coût moindre et des exigences matérielles plus simples.
Par exemple, il peut être utilisé dans des robots domestiques abordables qui fonctionnent avec une seule caméra. Même à partir d'une seule image, le système robotique peut identifier les murs les plus proches et les portes les plus éloignées, et déduire la profondeur globale de l'espace.
Souvent, une seule image ne contient pas d'informations à l'échelle correcte, c'est pourquoi l'estimation de la profondeur monoculaire se concentre généralement sur la profondeur relative. En d'autres termes, elle permet de déterminer quels objets sont plus proches et lesquels sont plus éloignés, même si les distances exactes ne sont pas connues.
Lorsqu'un modèle est entraîné à partir de données comportant des distances de référence ou des profondeurs absolues, telles que les mesures de profondeur provenant de capteurs comme le LiDAR, il peut apprendre à prédire les distances dans des unités réelles, telles que les mètres. Sans ce type de données de référence, le modèle peut toujours déduire la profondeur relative, mais ne peut pas estimer de manière fiable les distances absolues.
Le résultat de l'estimation de la profondeur monoculaire est généralement une carte de profondeur, c'est-à-dire une image dans laquelle chaque pixel représente la distance à laquelle se trouve cette partie de la scène. Une carte de profondeur fournit aux systèmes de vision une compréhension de base de la structure 3D de l'environnement.
Fig. 1. Exemple d'une carte de profondeur prédite créée à l'aide d'une estimation de profondeur monoculaire (Source)
Des capteurs aux images : estimation de la profondeur
L'estimation de la profondeur peut être abordée de plusieurs façons, en fonction des capteurs disponibles, des contraintes matérielles et des exigences de précision. Les méthodes traditionnelles s'appuient souvent sur plusieurs points de vue ou sur des capteurs spécialisés pour mesurer directement la distance.
Une approche courante est la vision stéréoscopique, qui estime la profondeur en comparant deux images synchronisées capturées à partir de points de vue légèrement différents. En mesurant la différence entre les points correspondants dans les deux images, le système peut déduire la distance qui sépare les objets de la caméra.
Une autre approche consiste à utiliser des systèmes RVB-D (rouge, vert, bleu et profondeur), qui utilisent des capteurs de profondeur actifs pour mesurer directement la distance à chaque pixel. Ces systèmes peuvent fournir des informations de profondeur précises dans des environnements contrôlés, mais nécessitent du matériel supplémentaire.
Par ailleurs, les méthodes basées sur le LiDAR utilisent des impulsions laser pour générer des représentations tridimensionnelles précises d'une scène. Bien que très précis, les capteurs LiDAR sont souvent coûteux et ajoutent une complexité matérielle importante.
En revanche, l'estimation monoculaire de la profondeur déduit la profondeur à partir d'une seule image RVB. Comme elle ne dépend pas de plusieurs caméras ou capteurs spécialisés, elle est plus facile à déployer à grande échelle et constitue une bonne option lorsque les coûts et les ressources matérielles sont limités.
Apprendre la profondeur à partir d'une seule image
Lorsqu'ils estiment la profondeur à partir d'une seule image, les modèles de profondeur monoculaires apprennent à reconnaître les indices visuels que les humains utilisent instinctivement pour évaluer la distance. Ces indices comprennent les lignes de perspective, la taille des objets, la densité des textures, le chevauchement des objets et les ombres, qui fournissent tous des indications sur la distance qui sépare les objets de la caméra.
Ces indices fonctionnent ensemble pour créer une impression de profondeur. Les objets qui semblent plus petits ou qui sont partiellement masqués sont souvent plus éloignés, tandis que les détails plus nets et les apparences visuelles plus grandes suggèrent généralement que quelque chose est plus proche.
Pour apprendre ces modèles, les modèles de profondeur monoculaire sont entraînés sur des ensembles de données d'images à grande échelle, souvent associés à des informations de profondeur obtenues à partir d'autres sources telles que des systèmes LiDAR ou stéréo. Pendant l'entraînement, les modèles apprennent comment les indices visuels sont liés à la profondeur, ce qui leur permet de déduire la distance à partir d'une seule image au moment de l'inférence.
Grâce à des données d'entraînement variées, les modèles de vision modernes peuvent généraliser cette compréhension acquise à un large éventail d'environnements, y compris des scènes intérieures et extérieures, et peuvent gérer des points de vue inconnus.
Aperçu des différentes techniques d'estimation de la profondeur monoculaire
Ensuite, nous explorerons les principales approches utilisées pour estimer la profondeur à partir d'une seule image et comment ces méthodes ont évolué au fil du temps.
Approches classiques et basées sur la géométrie
Les premières méthodes d'estimation de la profondeur reposaient sur des règles visuelles simples liées à la géométrie de la caméra. Des indices tels que la perspective, la taille des objets et le fait qu'un objet en bloque un autre étaient utilisés pour estimer la distance.
Par exemple, lorsque deux objets similaires apparaissaient à des tailles différentes, le plus petit était supposé être plus éloigné. Ces approches fonctionnaient assez bien dans des environnements contrôlés où des facteurs tels que l'éclairage, la position de la caméra et la disposition de la scène restaient constants.
Cependant, dans les scènes réelles, ces hypothèses sont souvent invalidées. Les variations d'éclairage, les changements de point de vue et la complexité accrue des scènes peuvent entraîner des estimations de profondeur peu fiables, limitant ainsi l'efficacité des méthodes classiques dans des environnements non contrôlés.
Les premières approches du machine learning
Les premières méthodes d'apprentissage automatique ont apporté plus de flexibilité à l'estimation de la profondeur en apprenant les modèles directement à partir des données. Au lieu de s'appuyer uniquement sur des règles géométriques fixes, ces modèles ont tenté d'apprendre la relation entre les informations visuelles et la distance, en traitant la prédiction de la profondeur comme un problème de régression basé sur des indices tels que les contours, les textures et les changements de couleur.
La sélection de ces caractéristiques a été une étape clé du processus. Les ingénieurs ont dû décider quels signaux visuels extraire et comment les représenter, et les performances du modèle dépendaient fortement de ces choix.
Bien que cette approche ait mieux fonctionné que les méthodes précédentes, elle présentait encore des limites. Si les caractéristiques sélectionnées manquaient de contexte important, les prédictions de profondeur étaient moins précises. À mesure que les scènes devenaient plus complexes et variées, ces modèles avaient souvent du mal à produire des résultats fiables.
Algorithmes d'apprentissage profond
La plupart des systèmes modernes d'estimation de la profondeur monoculaire utilisent l'apprentissage profond, qui fait référence à des réseaux neuronaux à plusieurs couches capables d'apprendre des modèles complexes à partir de données. Ces modèles apprennent à prédire la profondeur directement à partir d'images et à produire des cartes de profondeur.
De nombreuses approches sont construites à l'aide de réseaux neuronaux convolutifs (CNN), un type de réseau neuronal conçu pour traiter les images en détectant des motifs tels que les contours et les formes. Ces modèles utilisent souvent une configuration encodeur-décodeur : l'encodeur extrait les caractéristiques visuelles de l'image, et le décodeur convertit ces caractéristiques en une carte de profondeur. Le traitement de l'image à plusieurs échelles aide le modèle à saisir la disposition générale de la scène tout en capturant clairement les contours des objets.
Les modèles plus récents se concentrent sur la compréhension des relations entre les différentes parties d'une image. Les modèles basés sur Transformer et Vision Transformer (ViT) utilisent des mécanismes d'attention qui permettent au modèle d'identifier les zones les plus pertinentes d'une image et de relier entre elles des zones éloignées. Cela aide le modèle à construire une compréhension plus cohérente de la profondeur de l'ensemble de la scène.
Certains systèmes combinent les deux idées. Les modèles hybrides CNN-Transformer utilisent les CNN pour capturer les détails locaux fins et les Transformers pour modéliser le contexte global de la scène. Bien que cela améliore souvent la précision, cela nécessite généralement davantage de ressources informatiques, telles que de la mémoire et une puissance de traitement supplémentaires.
Pourquoi une compréhension approfondie est importante pour les systèmes d'IA visuelle
Au fur et à mesure que vous vous familiarisez avec l'estimation de la profondeur monoculaire, vous vous demandez peut-être pourquoi la compréhension de la profondeur est un élément si important des systèmes d'IA basés sur la vision.
Lorsqu'un système est capable d'estimer la distance à laquelle se trouvent des objets et des surfaces, il comprend mieux la disposition d'une scène et les relations entre les différents éléments qui la composent. Ce type de perception spatiale est essentiel pour prendre des décisions fiables, en particulier dans des applications concrètes telles que la conduite autonome.
Les informations de profondeur ajoutent également un contexte précieux à d'autres tâches de vision par ordinateur. Par exemple, la détection d'objets, prise en charge par des modèles tels que Ultralytics , peut indiquer à un système ce qui est présent dans une scène, mais la profondeur aide à déterminer où ces objets sont situés par rapport à la caméra et les uns par rapport aux autres.
Ensemble, ces capacités permettent une large gamme d'applications d'IA visuelle, telles que la création de cartes 3D, la navigation dans des environnements complexes et la compréhension d'une scène dans son ensemble.
Les robots et les véhicules autonomes dépendent de ces informations pour se déplacer en toute sécurité, éviter les obstacles et réagir aux changements en temps réel. Par exemple, l'approche de conduite basée uniquement sur la vision de Tesla s'appuie sur des images de caméra combinées à une estimation de la profondeur, plutôt que sur le LiDAR, pour comprendre à quelle distance se trouvent les objets et comment ils sont positionnés sur la route.
Comment fonctionnent les modèles d'estimation de la profondeur monoculaire
Bien que les architectures des modèles varient, la plupart des modèles d'estimation de profondeur monoculaire suivent un processus similaire pour convertir une image unique en une carte de profondeur. Voici un aperçu rapide des principales étapes impliquées :
Entrée et prétraitement : le flux de travail commence par une image d'entrée. Avant d'être transmise au modèle, l'image originale est généralement redimensionnée, normalisée et convertie en un tensor, qui est un format utilisé par les réseaux neuronaux pour traiter efficacement les données d'image.
Extraction de caractéristiques : un réseau encodeur analyse l'image afin d'extraire des caractéristiques visuelles significatives. Ces caractéristiques capturent des informations telles que les textures, les contours des objets et la disposition générale de la scène. La plupart des modèles fonctionnent à plusieurs échelles afin de pouvoir comprendre à la fois les détails fins et la structure globale.
Raisonnement en profondeur : à partir des caractéristiques extraites, le modèle combine les détails locaux avec le contexte global pour raisonner sur les relations spatiales dans la scène. À ce stade, il apprend quelles régions de l'image sont plus proches de la caméra et lesquelles sont plus éloignées.
Génération d'une carte de profondeur : un décodeur convertit ensuite ces informations en une carte de profondeur dense. Une valeur de profondeur est attribuée à chaque pixel de l'image, souvent en combinant les prédictions de différentes échelles afin d'améliorer la précision et la cohérence.
Comment les modèles d'estimation de la profondeur monoculaire sont-ils entraînés ?
Le processus dont nous venons de parler suppose que nous disposons déjà d'un modèle entraîné ou pré-entraîné. Mais comment fonctionne réellement l'entraînement d'un modèle d'estimation de profondeur monoculaire ?
La formation commence par la préparation des données d'image afin qu'elles puissent être traitées efficacement par le réseau. Les images d'entrée sont redimensionnées et normalisées à une échelle cohérente, puis transmises au modèle afin de générer une carte de profondeur prédictive qui estime la distance à chaque pixel.
La carte de profondeur prédite est ensuite comparée aux données de profondeur de référence à l'aide d'une fonction de perte, qui mesure l'écart entre la prédiction du modèle et la profondeur réelle. Cette valeur de perte représente l'erreur actuelle du modèle et fournit un signal d'amélioration.
Un optimiseur utilise ce signal pour mettre à jour le modèle en ajustant ses poids internes. Pour ce faire, l'optimiseur calcule le gradient, qui décrit comment la perte évolue par rapport à chaque paramètre du modèle, et applique ces mises à jour de manière répétée sur plusieurs époques, ou passages complets à travers l'ensemble de données d'entraînement.
Ce processus d'apprentissage supervisé itératif est guidé par des hyperparamètres tels que le taux d'apprentissage, qui contrôle l'ampleur de chaque étape de mise à jour, et la taille du lot, qui détermine le nombre d'images traitées à la fois. L'apprentissage impliquant un grand nombre d'opérations mathématiques, il est généralement accéléré à l'aide d'un processeur graphique (GPU), idéal pour le calcul parallèle.
Une fois la formation terminée, le modèle est évalué à l'aide de mesures d'évaluation standard sur un ensemble de validation, qui comprend des images qui n'ont pas été utilisées pendant la formation. Cette évaluation permet de mesurer la capacité du modèle à généraliser de nouvelles données.
Le modèle entraîné peut ensuite être réutilisé ou ajusté pour de nouveaux scénarios. Dans l'ensemble, ce processus d'entraînement permet aux modèles d'estimation de profondeur monoculaire de produire des estimations de profondeur cohérentes, qui sont essentielles pour les tâches en aval telles que la reconstruction 3D et le déploiement dans le monde réel.
Explorer les modèles de pointe et les tendances de la recherche
L'estimation de la profondeur monoculaire s'est rapidement améliorée, les modèles étant désormais capables de mieux comprendre des scènes entières plutôt que de simples détails visuels. Les approches antérieures produisaient souvent des cartes de profondeur inégales, en particulier dans des environnements complexes.
Les modèles plus récents, comme le montrent les dernières recherches publiées sur arXiv, se concentrent davantage sur un contexte global, ce qui permet d'obtenir des prédictions de profondeur plus stables et plus réalistes. Des modèles bien connus tels que MiDaS et DPT ont contribué à cette évolution en apprenant la profondeur à partir de divers ensembles de données haute résolution et en généralisant efficacement à de nombreuses scènes.
Les modèles plus récents, notamment ZoeDepth et Depth Anything V2, s'appuient sur ces travaux pour améliorer la cohérence à l'échelle tout en conservant des performances élevées dans un large éventail de paramètres. Ce type de progrès est souvent mesuré à l'aide d'ensembles de données de référence courants tels que KITTI et NYU, qui couvrent à la fois des scènes en extérieur et en intérieur.
Une autre tendance claire consiste à trouver un équilibre entre précision et praticité. Les modèles plus petits sont optimisés pour la vitesse et peuvent fonctionner en temps réel sur des appareils mobiles ou périphériques, tandis que les modèles plus grands privilégient une résolution plus élevée et une précision de profondeur à longue portée.
Applications d'estimation de la profondeur monoculaire
Passons maintenant en revue quelques exemples concrets qui montrent comment l'estimation de la profondeur monoculaire est utilisée pour déduire la structure 3D d'une scène à partir d'une seule image.
Dans tous ces cas, il est important de garder à l'esprit que les informations de profondeur sont une estimation déduite à partir d'indices visuels, et non une mesure précise. L'estimation monoculaire de la profondeur est donc utile pour comprendre la disposition relative et les relations spatiales, mais ne remplace pas les capteurs conçus pour mesurer la distance avec précision, tels que les systèmes LiDAR ou stéréo.
Cartographie et navigation du terrain à l'aide de drones
Les drones opèrent souvent dans des environnements où les signaux GPS sont peu fiables, tels que les forêts, les chantiers de construction, les zones sinistrées ou les zones urbaines densément peuplées. Pour voler en toute sécurité dans ces conditions, ils doivent comprendre le terrain environnant et connaître la distance qui les sépare des obstacles. Auparavant, cela nécessitait généralement l'ajout de capteurs tels que des caméras LiDAR ou stéréo, ce qui augmentait le poids, la consommation d'énergie et le coût global.
L'estimation monoculaire de la profondeur est une alternative plus simple. À l'aide d'une seule caméra RVB, les drones peuvent estimer la profondeur à partir d'images et se forger une compréhension 3D basique de leur environnement. Cela leur permet detect tels que des bâtiments, des arbres ou des changements soudains de terrain, et d'ajuster leur trajectoire de vol en temps réel.
Ces estimations de profondeur facilitent les tâches de navigation essentielles, notamment la détection des obstacles, le contrôle de l'altitude et l'atterrissage en toute sécurité. Ainsi, les drones légers peuvent effectuer des tâches de cartographie, d'inspection et de navigation sans avoir recours à des capteurs de profondeur spécialisés.
Fig. 2. L'estimation de la profondeur monoculaire peut être utilisée pour analyser les images prises par drone (Source)
Combler les angles morts des véhicules de course autonomes
Les véhicules autonomes s'appuient généralement beaucoup sur les capteurs LiDAR, qui utilisent des impulsions laser pour mesurer la distance et créer une vue 3D de la route. Bien que très précis, le LiDAR peut rencontrer des difficultés avec les crêtes routières prononcées, les pentes raides, les occlusions ou les inclinaisons soudaines du véhicule, renvoyant parfois des données de profondeur éparses ou manquantes.
L'estimation monoculaire de la profondeur peut aider à combler ces lacunes en fournissant des informations détaillées sur la profondeur à partir d'une seule image RVB, même lorsque les données LiDAR sont incomplètes. Prenons l'exemple d'une voiture autonome qui approche à grande vitesse du sommet d'une colline. Les faisceaux LiDAR peuvent dépasser la route au-delà du sommet, laissant planer une incertitude sur ce qui se trouve devant.
Cependant, l'estimation de la profondeur à l'aide d'une caméra permet toujours de déduire la forme de la route à partir d'indices visuels tels que la perspective et la texture, aidant ainsi le véhicule à maintenir une perception fiable jusqu'à ce que les données LiDAR se stabilisent. Ensemble, le LiDAR et l'estimation monoculaire de la profondeur permettent une perception plus stable et un contrôle plus sûr dans des conditions de conduite difficiles.
Fig. 3. Visualisation de l'utilisation de l'estimation de la profondeur monoculaire pour les courses autonomes (Source)
Navigation robotique et évitement d'obstacles
Les robots sont souvent utilisés dans des endroits où il n'existe pas de cartes détaillées et où les conditions changent constamment. Pour se déplacer en toute sécurité, ils doivent pouvoir évaluer de manière fiable l'espace qui les entoure et la position des obstacles.
L'estimation monoculaire de la profondeur permet d'obtenir cette perception spatiale à l'aide d'une seule caméra RVB, sans avoir recours à du matériel lourd ou coûteux. En apprenant à reconnaître des repères visuels tels que l'échelle et la perspective, les modèles d'estimation de la profondeur peuvent générer des cartes de profondeur denses de l'environnement. Cela permet aux robots d'avoir une vision claire de la distance qui les sépare des surfaces et des objets.
En particulier, lorsque les informations de profondeur sont combinées à des tâches de vision par ordinateur telles que la détection d'objets et la segmentation sémantique, les robots peuvent obtenir une vue plus complète de leur environnement. Ils peuvent identifier des objets, comprendre leur distance et décider où il est sûr de se déplacer. Cela facilite l'évitement d'obstacles, la détection d'espaces libres et la planification de trajectoires en temps réel.
Fig. 4. Détection d'objets à l'aide de l'estimation de la profondeur monoculaire et de la détection d'objets (Source)
Avantages et inconvénients de l'estimation de la profondeur monoculaire
Voici quelques-uns des principaux avantages de l'utilisation de l'estimation de la profondeur monoculaire :
Léger et économe en énergie : l'utilisation d'une seule caméra réduit le poids et la consommation d'énergie du système, ce qui est particulièrement important pour les robots mobiles, les drones et les systèmes embarqués.
Compatible avec la fusion de capteurs : la profondeur monoculaire peut compléter d'autres capteurs, tels que le LiDAR ou le radar, en comblant les lacunes ou en fournissant une redondance.
Fonctionne dans de nombreux environnements : la même approche basée sur une caméra peut être utilisée à l'intérieur, à l'extérieur et sur différentes plateformes sans nécessiter de modifications matérielles.
Bien que l'estimation monoculaire de la profondeur offre des avantages évidents, voici quelques limites à prendre en considération :
Précision inférieure à celle des capteurs actifs : bien qu'elle s'améliore rapidement, l'estimation de la profondeur monoculaire ne peut généralement pas rivaliser avec la précision absolue des capteurs LiDAR ou à lumière structurée dans des conditions contrôlées.
Sensibilité aux conditions d'éclairage : les performances peuvent être réduites dans les environnements peu éclairés, en présence d'ombres marquées, de reflets ou dans les scènes présentant une texture médiocre.
Défis liés à la généralisation : un modèle entraîné dans un environnement donné peut ne pas toujours être transféré de manière fiable à des domaines inconnus sans adaptation ou ajustement.
Quand ne pas se fier à l'estimation monoculaire de la profondeur
Bien que l'estimation de la profondeur monoculaire soit un domaine de recherche intéressant, il est important de comprendre où elle peut être utilisée dans la pratique et où elle ne peut pas l'être. Les distances qu'elle produit sont des estimations basées sur ce que le modèle voit dans une image, et non des mesures exactes prises dans le monde réel.
De ce fait, la qualité des résultats peut varier en fonction de facteurs tels que l'éclairage, la complexité de la scène et la similitude entre la scène et celle sur laquelle le modèle a été entraîné. L'estimation de la profondeur monoculaire permet généralement de déterminer ce qui est proche et ce qui est loin, mais elle n'est pas fiable lorsque vous avez besoin de distances exactes.
Dans les situations où la précision est primordiale, comme les systèmes critiques pour la sécurité, l'inspection industrielle ou les robots qui doivent interagir de manière très précise avec des objets, la profondeur doit être mesurée directement. Des capteurs tels que le LiDAR, le radar, les caméras stéréo ou les systèmes à lumière structurée sont conçus à cet effet et fournissent des informations de distance beaucoup plus fiables.
L'estimation monoculaire de la profondeur peut également s'avérer difficile dans des conditions visuelles difficiles. Un mauvais éclairage, des ombres prononcées, des surfaces réfléchissantes ou transparentes, du brouillard, de la fumée ou des scènes avec très peu de texture visuelle peuvent tous rendre les estimations de profondeur moins fiables. L'estimation de la profondeur à longue distance est un autre cas où les capteurs dédiés fonctionnent généralement mieux.
En matière de solutions concrètes, l'estimation de la profondeur monoculaire fonctionne mieux comme outil d'appoint que comme solution autonome. Elle peut ajouter un contexte spatial utile, aider à combler les lacunes lorsque les autres capteurs sont limités et améliorer la compréhension globale de la scène. Cependant, elle ne doit pas être la seule source d'informations sur la profondeur lorsque la précision, la sécurité ou des exigences strictes en matière de fiabilité sont importantes.
Principaux points à retenir
L'estimation de la profondeur monoculaire est une technique de vision par ordinateur qui permet aux machines d'estimer la distance des objets à partir d'une seule image prise par une caméra. En apprenant à reconnaître des indices visuels tels que la perspective, la taille des objets, la texture et les ombres, ces modèles d'IA peuvent déduire la structure 3D d'une scène sans avoir recours à des capteurs tels que le LiDAR ou les caméras stéréo. L'estimation de la profondeur monoculaire constitue donc une approche rentable et évolutive pour des applications telles que la conduite autonome, la robotique et la compréhension des scènes 3D.