En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Paramètres des cookies
En cliquant sur « Accepter tous les cookies », vous acceptez le stockage de cookies sur votre appareil pour améliorer la navigation sur le site, analyser son utilisation et contribuer à nos efforts de marketing. Plus d’infos
Découvrez le fonctionnement de la correspondance d'images dans Vision AI et explorez les technologies de base qui aident les machines à detect, comparer et comprendre les données visuelles.
Lorsque vous regardez deux images d'un même objet, comme une peinture et une photographie d'une voiture, il est facile de remarquer ce qu'elles ont en commun. Pour les machines, en revanche, ce n'est pas si simple.
Pour effectuer de telles comparaisons, les machines s'appuient sur la vision artificielle, une branche de l'intelligence artificielle (IA) qui les aide à interpréter et à comprendre les informations visuelles. La vision par ordinateur permet aux systèmes de detect objets, de comprendre des scènes et d'extraire des modèles à partir d'images ou de vidéos.
En particulier, certaines tâches visuelles vont au-delà de l'analyse d'une seule image. Elles consistent à comparer des images pour trouver des similitudes, repérer des différences ou track changements dans le temps.
L'IA de la vision englobe un large éventail de techniques, et une capacité essentielle, connue sous le nom de correspondance d'images, se concentre sur l'identification des similitudes entre les images, même lorsque l'éclairage, les angles ou les arrière-plans varient. Cette technique peut être utilisée dans diverses applications, notamment la robotique, la réalité augmentée et la géocartographie.
Dans cet article, nous verrons ce qu'est la correspondance d'images, ses principales techniques et quelques-unes de ses applications concrètes. Commençons par le commencement !
Qu'est-ce que la correspondance d'images ?
La mise en correspondance d'images permet à un système informatique de comprendre si deux images ont un contenu similaire. Les humains peuvent le faire intuitivement en remarquant les formes, les couleurs et les motifs.
Les ordinateurs, quant à eux, s'appuient sur des données numériques. Ils analysent les images en étudiant chaque pixel, qui est la plus petite unité d'une image numérique.
Chaque image est stockée sous la forme d'une grille de pixels, et chaque pixel contient généralement des valeurs pour le rouge, le vert et le bleu (RVB). Ces valeurs peuvent changer lorsqu'une image est tournée, redimensionnée, regardée sous un angle différent ou capturée dans des conditions d'éclairage différentes. En raison de ces variations, la comparaison des images pixel par pixel est souvent peu fiable.
Pour rendre les comparaisons plus cohérentes, la mise en correspondance d'images se concentre sur les caractéristiques locales ou les coins, les bords et les régions texturées qui ont tendance à rester stables même lorsqu'une image change légèrement. En détectant ces caractéristiques, ou points clés, sur plusieurs images, un système peut les comparer avec une plus grande précision.
Ce processus est largement utilisé dans des cas d'utilisation tels que la navigation, la localisation, la réalité augmentée, la cartographie, la reconstruction 3D et la recherche visuelle. Lorsque les systèmes identifient les mêmes points sur différentes images ou plusieurs trames, ils peuvent track mouvements, comprendre la structure de la scène et prendre des décisions fiables dans des environnements dynamiques.
Fig. 1. Exemple de correspondance d'images de voitures où des points clés similaires sont identifiés.(Source)
Comprendre le fonctionnement de la comparaison d'images
La mise en correspondance d'images comporte plusieurs étapes clés qui permettent aux systèmes d'identifier et de comparer des régions similaires dans des images. Chaque étape améliore la précision, la cohérence et la robustesse dans différentes conditions.
Voici un aperçu, étape par étape, du fonctionnement de l'appariement d'images :
Détection des caractéristiques : Le système identifie d'abord les points clés distinctifs d'une image qui restent immobiles même lorsque l'éclairage, l'échelle ou l'angle de vue changent. Ils mettent en évidence des zones telles que les coins, les bords ou les régions texturées qui se distinguent visuellement.
Description des caractéristiques : Chaque point clé est ensuite converti en un descripteur, c'est-à-dire un vecteur numérique compact qui capture le modèle visuel autour de ce point. Ces descripteurs constituent un moyen fiable de comparer les caractéristiques de différentes images.
Correspondance des caractéristiques : les descripteurs de deux images sont comparés à l'aide d'algorithmes de correspondance qui calculent leur degré de similitude. Cette étape permet d'associer les points clés qui semblent correspondre et de filtrer les correspondances plus faibles ou peu fiables.
Vérification géométrique : Enfin, le système vérifie si les points clés correspondants forment une relation géométrique réaliste. Il élimine les correspondances incorrectes (appelées aberrations) à l'aide d'une méthode appelée RANSAC (Random Sample Consensus), qui garantit que seules les paires de points fiables sont conservées. Une fois les bonnes correspondances identifiées, le système estime la transformation qui relie le mieux les deux images. Il s'agit souvent d'une transformation affine, qui tient compte de changements tels que la mise à l'échelle, la rotation et le décalage, ou d'une homographie, qui peut également gérer les changements de perspective. L'utilisation de ces transformations permet au système d'aligner les images avec précision, même si elles ont été capturées à partir de points de vue légèrement différents.
Fig 2. (a) Extraction de points caractéristiques et (b) mise en correspondance des caractéristiques.(Source)
Techniques de base utilisées pour la mise en correspondance d'images
Avant d'explorer les applications réelles de la mise en correspondance d'images, examinons d'abord de plus près les techniques de mise en correspondance d'images utilisées dans les systèmes de vision par ordinateur.
Correspondance d'images basée sur la correspondance de modèles
La comparaison de modèles est l'une des méthodes de comparaison d'images les plus simples. Elle est généralement considérée comme une technique de traitement d'image plutôt que comme une méthode moderne de vision par ordinateur, car elle repose sur des comparaisons directes de pixels et n'extrait pas de caractéristiques visuelles plus profondes.
Il est utilisé pour localiser une image de référence plus petite, ou modèle, dans une scène plus grande. Il utilise un algorithme qui fait glisser un modèle sur l'image principale et calcule un score de similarité à chaque position pour mesurer le degré de correspondance entre les deux régions. La zone présentant le score le plus élevé est considérée comme la meilleure correspondance, indiquant l'endroit où l'objet est le plus susceptible d'apparaître dans la scène.
Fig. 3. Aperçu de l'utilisation de la correspondance des modèles.(Source)
Cette technique fonctionne bien lorsque l'échelle, la rotation et l'éclairage de l'objet restent cohérents, ce qui en fait un bon choix pour les environnements contrôlés ou les comparaisons de référence. Cependant, ses performances diminuent lorsque l'objet est différent du modèle, par exemple lorsque sa taille change, qu'il est tourné, qu'il est partiellement occulté ou qu'il apparaît sur un arrière-plan bruyant ou complexe.
Techniques classiques basées sur les caractéristiques pour la comparaison d'images
Avant que l'apprentissage profond ne soit largement adopté, la mise en correspondance d'images reposait principalement sur des algorithmes classiques de vision par ordinateur qui détectaient des points clés distinctifs dans une image. Au lieu de comparer chaque pixel, ces méthodes analysent les gradients de l'image, ou les changements d'intensité, pour mettre en évidence les coins, les bords et les régions texturées qui se démarquent.
Chaque point clé détecté est ensuite représenté à l'aide d'un résumé numérique compact appelé descripteur. Lors de la comparaison de deux images, un outil de mise en correspondance évalue ces descripteurs pour trouver les paires les plus similaires.
Un score de similarité élevé indique généralement que le même point physique apparaît sur les deux images. Les outils de mise en correspondance utilisent également des mesures de distance spécifiques ou des règles de notation pour évaluer le degré d'alignement des caractéristiques, ce qui améliore la fiabilité globale.
Voici quelques-uns des principaux algorithmes classiques de vision par ordinateur utilisés pour la mise en correspondance d'images :
SIFT (Scale-Invariant Feature Transform): Elle identifie les points clés en analysant les gradients d'intensité de l'image, ce qui leur permet de rester reconnaissables lorsqu'une image est mise à l'échelle, réduite ou tournée.
SURF (Speeded-Up Robust Features) : Cet algorithme est similaire à SIFT, mais il est optimisé pour la vitesse. Il utilise des approximations rapides des opérations basées sur le gradient, ce qui le rend adapté aux applications nécessitant des temps de réponse rapides.
ORB (Oriented FAST and Rotated BRIEF) : Il réunit deux algorithmes appelés FAST et BRIEF. FAST trouve rapidement les points d'angle dans une image, tandis que BRIEF crée une description compacte de chaque point afin qu'ils puissent être mis en correspondance sur plusieurs images. ORB améliore également les deux étapes en ajoutant la gestion de la rotation, ce qui le rend rapide et fiable.
Fig. 4. Points de caractéristiques SURF extraits et mis en correspondance entre deux images.(Source)
Techniques de comparaison d'images basées sur l'apprentissage profond
Contrairement aux méthodes classiques qui reposent sur des règles spécifiques, l'apprentissage profond apprend automatiquement des caractéristiques à partir de grands ensembles de données, qui sont des collections de données visuelles à partir desquelles les modèles d'IA apprennent des modèles. Ces modèles s'exécutent généralement sur des GPU (Graphics Processing Units), qui fournissent la puissance de calcul élevée nécessaire pour traiter de grandes quantités d'images et entraîner efficacement des réseaux neuronaux complexes.
Cela permet aux modèles d'IA de gérer les changements du monde réel tels que l'éclairage, les angles de caméra et les occlusions. Certains modèles combinent également toutes les étapes en un seul flux de travail, ce qui permet d'obtenir des performances solides dans des conditions difficiles.
Voici quelques approches basées sur l'apprentissage profond pour l'extraction et la correspondance des caractéristiques des images :
Extraction de caractéristiques basée sur le CNN: Ces modèles apprennent automatiquement les principaux motifs visuels à partir de vastes ensembles de données. Ils reconnaissent les caractéristiques qui sont peu susceptibles de changer, ce qui les rend fiables pour faire correspondre des objets dans différentes scènes.
Correspondance basée sur l'intégration: au lieu de comparer directement les pixels, cette méthode transforme les images en représentations numériques compactes connues sous le nom d'intégrations. L'outil de mise en correspondance compare ensuite ces représentations pour trouver des images similaires. Des modèles tels que FaceNet, qui génère des encastrements pour reconnaître et comparer des visages, et CLIP, qui met en correspondance des images et du texte dans un espace partagé pour des tâches telles que la recherche d'images et l'appariement sémantique, suivent cette approche.
Pipelines d'appariement de bout en bout: Les systèmes d'apprentissage profond de pointe combinent souvent la détection, la description et la mise en correspondance des points clés dans un flux de travail unifié. Des modèles comme SuperPoint et D2-Net apprennent à la fois les points clés et les descripteurs directement à partir des cartes de caractéristiques CNN, tandis que SuperGlue agit en tant qu'outil d'appariement appris qui associe ces descripteurs de manière plus fiable que les méthodes traditionnelles. Ensemble, ces composants créent un pipeline de bout en bout qui offre une plus grande précision et une plus grande robustesse dans des conditions difficiles que les approches classiques basées sur les caractéristiques.
Correspondance basée sur le transformateur: cette méthode utilise des mécanismes d'attention pour relier les régions correspondantes sur deux images, ce qui lui permet d'aligner les taches même en cas de changements importants de point de vue, d'éclairage ou de texture. Les modèles tels que LoFTR (Local Feature Transformer) atteignent une précision beaucoup plus élevée car le champ réceptif global du transformateur permet une correspondance fiable dans les zones à faible texture, floues ou répétitives où les détecteurs traditionnels échouent. LoFTR produit des correspondances semi-denses et très fiables et surpasse largement les méthodes de pointe antérieures, tant à l'intérieur qu'à l'extérieur.
Modèles axés sur l'efficacité: Les nouveaux modèles de comparaison d'images visent à offrir une grande précision tout en fonctionnant plus rapidement. Des modèles comme LightGlue sont conçus pour fonctionner efficacement sur des appareils dotés d'une puissance de calcul limitée, tout en conservant une bonne qualité d'appariement.
Applications réelles de la comparaison d'images
Maintenant que nous comprenons mieux le fonctionnement de la correspondance d'images, examinons quelques applications du monde réel dans lesquelles elle joue un rôle important.
Une robotique plus intelligente grâce à la correspondance des images
Les robots évoluent souvent dans des environnements animés et changeants, où ils doivent comprendre quels objets sont présents et comment ils sont placés. La comparaison d'images peut aider les robots à comprendre les objets qu'ils voient en les comparant à des images stockées ou de référence. Il est ainsi plus facile pour ces robots de reconnaître les objets, de track leurs mouvements et de s'adapter même lorsque l'éclairage ou les angles de la caméra changent.
Par exemple, dans un entrepôt, un système robotisé de prise et de dépose peut utiliser la correspondance d'images pour identifier et manipuler différents articles. Le robot saisit d'abord un objet, puis compare son image à des échantillons de référence pour l'identifier.
Fig. 5. Un robot reconnaît et saisit des objets en les faisant correspondre à des images de référence.(Source)
Une fois la correspondance trouvée, le robot sait comment la trier ou la placer correctement. Cette approche permet aux robots de reconnaître à la fois des objets familiers et des objets nouveaux sans avoir à réapprendre l'ensemble du système. Elle les aide également à prendre de meilleures décisions en temps réel, comme organiser des étagères, assembler des pièces ou réorganiser des objets.
Amélioration de la reconstruction 3D grâce à une meilleure correspondance des images
Dans des domaines tels que la cartographie par drone, la réalité virtuelle et l'inspection des bâtiments, les systèmes doivent souvent reconstruire un modèle 3D à partir de plusieurs images 2D. Pour ce faire, ils s'appuient sur la correspondance d'images pour identifier les points clés communs, tels que les coins ou les régions texturées, qui apparaissent sur plusieurs images.
Ces points communs aident le système à comprendre comment les images sont liées les unes aux autres dans l'espace 3D. Cette idée est étroitement liée à la structure à partir du mouvement (SfM), une technique qui construit des structures 3D en identifiant et en faisant correspondre des points clés sur des images capturées à partir de différents points de vue.
Si la correspondance n'est pas précise, le modèle 3D obtenu peut apparaître déformé ou incomplet. C'est pourquoi les chercheurs s'efforcent d'améliorer la fiabilité de la mise en correspondance d'images pour la reconstruction 3D, et les progrès récents ont donné des résultats prometteurs.
Un exemple intéressant est HashMatch, un algorithme de comparaison d'images plus rapide et plus robuste. HashMatch convertit les détails de l'image en motifs compacts appelés codes de hachage, ce qui facilite l'identification des correspondances correctes et la suppression des valeurs aberrantes, même lorsque l'éclairage ou les points de vue varient.
Testé sur des ensembles de données à grande échelle, HashMatch a produit des modèles de reconstruction 3D plus propres et plus réalistes, avec moins d'erreurs d'alignement. Il est donc particulièrement utile pour des applications telles que la cartographie par drone, les systèmes de réalité augmentée et la préservation du patrimoine culturel, où la précision est essentielle.
Le rôle de la correspondance des images dans la réalité augmentée
En matière de réalité augmentée (RA), il est souvent difficile d'aligner les objets virtuels sur le monde réel. Les environnements extérieurs peuvent changer constamment en fonction des conditions ambiantes, telles que la lumière du soleil et la météo. Des différences subtiles dans le monde réel peuvent donner l'impression que les éléments virtuels sont instables ou légèrement déplacés.
Pour résoudre ce problème, les systèmes de RA utilisent la correspondance d'images pour interpréter leur environnement. En comparant les images de la caméra en direct avec les images de référence stockées, ils peuvent comprendre où se trouve l'utilisateur et comment la scène a changé.
Fig. 6. Correspondance des points caractéristiques entre deux images.(Source)
Par exemple, dans le cadre d'une étude portant sur un entraînement militaire à la réalité augmentée en extérieur avec des lunettes XR (Extended Reality), les chercheurs ont utilisé SIFT et d'autres méthodes basées sur les caractéristiques pour faire correspondre les détails visuels entre les images réelles et les images de référence. Des correspondances précises ont permis d'aligner correctement les éléments virtuels sur le monde réel, même lorsque l'utilisateur se déplaçait rapidement ou que l'éclairage changeait.
Principaux points à retenir
La mise en correspondance d'images est un élément essentiel de la vision par ordinateur, qui permet aux systèmes de comprendre comment des images différentes sont liées les unes aux autres ou comment une scène évolue dans le temps. Elle joue un rôle essentiel dans la robotique, la réalité augmentée, la reconstruction 3D, la navigation autonome et de nombreuses autres applications du monde réel où la précision et la stabilité sont essentielles.
Grâce à des modèles d'IA avancés tels que SuperPoint et LoFTR, les systèmes d'aujourd'hui deviennent beaucoup plus robustes que les méthodes précédentes. À mesure que les techniques d'apprentissage automatique, les modules de vision spécialisés, les réseaux neuronaux et les ensembles de données continuent de progresser, la comparaison d'images deviendra probablement plus rapide, plus précise et plus adaptable.
Rejoignez notre communauté grandissante et explorez notre dépôt GitHub pour des ressources pratiques sur l'IA. Pour construire avec Vision AI dès aujourd'hui, découvrez nos options de licence. Découvrez comment l 'IA transforme l'agriculture et comment Vision AI façonne l'avenir dans le domaine de la santé en visitant nos pages de solutions.