Qu'est-ce que la mise en correspondance d'images en vision par ordinateur ? Une introduction rapide
Découvre comment fonctionne la mise en correspondance d'images en vision par ordinateur et explore les technologies fondamentales qui aident les machines à détecter, comparer et comprendre les données visuelles.

Quand tu regardes deux photos du même objet, comme une peinture et une photographie d'une voiture, il est facile de remarquer ce qu'elles ont en commun. Pour les machines, cependant, ce n'est pas si simple.
Pour effectuer de telles comparaisons, les machines s'appuient sur la computer vision, une branche de l'intelligence artificielle (IA) qui les aide à interpréter et comprendre les informations visuelles. La computer vision permet aux systèmes de détecter des objets, de comprendre des scènes et d'extraire des modèles à partir d'images ou de vidéos.
En particulier, certaines tâches visuelles vont au-delà de l'analyse d'une seule image. Elles impliquent de comparer des images pour trouver des similarités, repérer des différences ou suivre des changements dans le temps.
L'IA de vision couvre un large éventail de techniques, et une capacité essentielle, connue sous le nom de matching d'images, se concentre sur l'identification de similarités entre des images, même lorsque l'éclairage, les angles ou les arrière-plans varient. Cette technique peut être utilisée dans diverses applications, notamment la robotique, la réalité augmentée et la géocartographie.
Dans cet article, nous explorerons ce qu'est le matching d'images, ses techniques fondamentales et certaines de ses applications concrètes. Commençons !
Link to this sectionQu'est-ce que le matching d'images ?#
Le matching d'images permet à un système informatique de comprendre si deux images contiennent un contenu similaire. Les humains peuvent le faire intuitivement en remarquant les formes, les couleurs et les modèles.
Les ordinateurs, quant à eux, s'appuient sur des données numériques. Ils analysent les images en examinant chaque pixel, qui est la plus petite unité d'une image numérique.
Chaque image est stockée sous forme de grille de pixels, et chaque pixel contient généralement des valeurs pour le rouge, le vert et le bleu (RGB). Ces valeurs peuvent changer lorsqu'une image est pivotée, redimensionnée, vue sous un angle différent ou capturée dans des conditions d'éclairage différentes. En raison de ces variations, comparer des images pixel par pixel est souvent peu fiable.
Pour rendre les comparaisons plus cohérentes, le matching d'images se concentre sur les caractéristiques locales ou les coins, les bords et les régions texturées qui ont tendance à rester stables même lorsqu'une image change légèrement. En détectant ces caractéristiques, ou keypoints, à travers plusieurs images, un système peut les comparer avec une précision bien plus grande.
Ce processus est largement utilisé dans des cas d'utilisation comme la navigation, la localisation, la réalité augmentée, la cartographie, la reconstruction 3D et la recherche visuelle. Lorsque les systèmes identifient les mêmes points à travers différentes images ou plusieurs frames, ils peuvent suivre le mouvement, comprendre la structure de la scène et prendre des décisions fiables dans des environnements dynamiques.

Fig 1. Un exemple de matching d'images de voiture où des keypoints similaires sont identifiés. (Source)
Link to this sectionComprendre comment fonctionne le matching d'images#
Le matching d'images implique plusieurs étapes clés qui aident les systèmes à identifier et comparer des régions similaires au sein des images. Chaque étape améliore la précision, la cohérence et la robustesse dans différentes conditions.
Voici un aperçu étape par étape du fonctionnement du matching d'images :
- Détection de caractéristiques : Le système identifie d'abord des keypoints distinctifs dans une image qui restent fixes même lorsque l'éclairage, l'échelle ou l'angle de vue changent. Ils mettent en évidence des zones telles que des coins, des bords ou des régions texturées qui se distinguent visuellement.
- Description de caractéristiques : Chaque keypoint est ensuite converti en un descripteur, qui est un vecteur numérique compact capturant le modèle visuel autour de ce point. Ces descripteurs offrent un moyen fiable de comparer les caractéristiques entre différentes images.
- Matching de caractéristiques : Les descripteurs de deux images sont comparés à l'aide d'algorithmes de matching qui calculent leur degré de similarité. Cette étape apparie les keypoints qui semblent correspondre et filtre les correspondances plus faibles ou peu fiables.
- Vérification géométrique : Enfin, le système vérifie si les keypoints appariés forment une relation géométrique réaliste. Il supprime les mauvaises correspondances (appelées outliers) en utilisant une méthode connue sous le nom de RANSAC (Random Sample Consensus), qui garantit que seules des paires de points fiables sont conservées. Une fois les bonnes correspondances identifiées, le système estime la transformation qui relie au mieux les deux images. Il s'agit souvent d'une transformation affine, qui s'ajuste aux changements comme le redimensionnement, la rotation et le déplacement, ou d'une homographie, qui peut également gérer les changements de perspective. L'utilisation de ces transformations permet au système d'aligner les images avec précision, même lorsqu'elles ont été capturées depuis des points de vue légèrement différents.

Fig 2. (a) Extraction de points de caractéristiques et (b) matching de caractéristiques. (Source)
Link to this sectionTechniques principales impliquées dans le matching d'images#
Avant d'explorer les applications concrètes du matching d'images, examinons de plus près les techniques de matching d'images utilisées dans les systèmes de computer vision.
Link to this sectionMatching d'images basé sur le template matching#
Le template matching est l'une des méthodes de matching d'images les plus simples. Elle est généralement considérée comme une technique de image-processing plutôt que comme une méthode moderne de computer vision car elle repose sur des comparaisons directes de pixels et n'extrait pas de caractéristiques visuelles plus approfondies.
Elle est utilisée pour localiser une image de référence plus petite, ou template, au sein d'une scène plus large. Elle fonctionne en utilisant un algorithme qui fait glisser un template sur l'image principale et calcule un score de similarité à chaque position pour mesurer à quel point les deux régions correspondent. La zone avec le score le plus élevé est considérée comme la meilleure correspondance, indiquant où l'objet est le plus susceptible d'apparaître dans la scène.

Fig 3. Un aperçu de l'utilisation du template matching. (Source)
Cette technique fonctionne bien lorsque l'échelle, la rotation et l'éclairage de l'objet restent cohérents, ce qui en fait un bon choix pour les environnements contrôlés ou les comparaisons de base. Cependant, ses performances diminuent lorsque l'objet semble différent du template, par exemple lorsque sa taille change, qu'il est pivoté, partiellement occlus ou qu'il apparaît sur un arrière-plan bruyant ou complexe.
Link to this sectionTechniques classiques basées sur les caractéristiques pour le matching d'images#
Avant que le deep learning ne devienne largement adopté, le matching d'images reposait principalement sur des algorithmes classiques de computer vision qui détectaient des keypoints distinctifs dans une image. Au lieu de comparer chaque pixel, ces méthodes analysent les gradients d'image, ou les changements d'intensité, pour mettre en évidence les coins, les bords et les régions texturées qui se distinguent.
Chaque keypoint détecté est ensuite représenté à l'aide d'un résumé numérique compact appelé descripteur. Lors de la comparaison de deux images, un matcher évalue ces descripteurs pour trouver les paires les plus similaires.
Un score de similarité élevé indique généralement que le même point physique apparaît dans les deux images. Les matchers utilisent également des mesures de distance spécifiques ou des règles de notation pour juger à quel point les caractéristiques s'alignent, améliorant ainsi la fiabilité globale.
Voici quelques-uns des algorithmes de computer vision classiques clés utilisés pour le matching d'images :
-
SIFT (Scale-Invariant Feature Transform) : Il identifie les keypoints en analysant les gradients d'intensité d'image, leur permettant de rester reconnaissables lorsqu'une image est mise à l'échelle, réduite ou pivotée.
-
SURF (Speeded-Up Robust Features) : Cet algorithme est similaire à SIFT mais est optimisé pour la vitesse. Il utilise des approximations rapides d'opérations basées sur le gradient, ce qui le rend adapté aux applications nécessitant des temps de réponse rapides.
-
ORB (Oriented FAST and Rotated BRIEF) : Il réunit deux algorithmes appelés FAST et BRIEF. FAST trouve rapidement des points semblables à des coins dans une image, tandis que BRIEF crée une description compacte de chaque point afin qu'ils puissent être appariés à travers les images. ORB améliore également les deux étapes en ajoutant la gestion de la rotation, ce qui le rend rapide et fiable.

Fig 4. Points de caractéristiques SURF extraits et appariés entre deux images. (Source)
Link to this sectionTechniques basées sur le deep learning pour le matching d'images#
Contrairement aux méthodes classiques qui reposent sur des règles spécifiques, le deep learning apprend automatiquement les caractéristiques à partir de grands datasets, qui sont des collections de données visuelles à partir desquelles les modèles d'IA apprennent des modèles. Ces modèles s'exécutent généralement sur des GPU (Graphics Processing Units), qui fournissent la haute puissance de calcul nécessaire pour traiter efficacement de grands lots d'images et entraîner des réseaux de neurones complexes.
Cela donne aux modèles d'IA la capacité de gérer des changements du monde réel tels que l'éclairage, les angles de caméra et les occlusions. Certains modèles combinent également toutes les étapes en un seul flux de travail, prenant en charge des performances robustes dans des conditions difficiles.
Voici quelques approches basées sur le deep learning pour l'extraction et le matching de caractéristiques d'image :
-
Extraction de caractéristiques basée sur CNN : Ces modèles apprennent automatiquement les modèles visuels clés à partir de grands datasets. Ils reconnaissent des caractéristiques qui sont peu susceptibles de changer, ce qui les rend fiables pour le matching d'objets à travers différentes scènes.
-
Matching basé sur l'embedding : Au lieu de comparer directement les pixels, cette méthode transforme les images en représentations numériques compactes connues sous le nom d'embeddings. Le matcher compare ensuite ces embeddings pour trouver des visuels similaires. Des modèles comme FaceNet, qui génère des embeddings pour reconnaître et comparer des visages, et CLIP, qui mappe les images et le texte dans un espace partagé pour des tâches comme la recherche d'images et le matching sémantique, suivent cette approche.
-
Pipelines de matching de bout en bout : Les systèmes de deep learning de pointe combinent souvent la détection de keypoints, la description et le matching en un flux de travail unifié. Des modèles comme SuperPoint et D2-Net apprennent à la fois les keypoints et les descripteurs directement à partir de cartes de caractéristiques CNN, tandis que SuperGlue agit comme un matcher appris qui apparie ces descripteurs de manière plus fiable que les méthodes traditionnelles. Ensemble, ces composants créent un pipeline de bout en bout qui offre une précision plus élevée et une plus grande robustesse dans des conditions difficiles que les approches classiques basées sur les caractéristiques.
-
Matching basé sur Transformer : Cette méthode utilise des mécanismes d'attention pour lier des régions correspondantes à travers deux images, lui permettant d'aligner des patchs même sous de forts changements de point de vue, d'éclairage ou de texture. Des modèles comme LoFTR (Local Feature Transformer) atteignent une précision beaucoup plus élevée car le champ réceptif global du Transformer permet un matching fiable dans des zones à faible texture, floues ou répétitives où les détecteurs traditionnels échouent. LoFTR produit des correspondances semi-denses de haute confiance et surpasse les méthodes de pointe antérieures par une large marge sur les benchmarks intérieurs et extérieurs.
-
Modèles axés sur l'efficacité : Les nouveaux modèles de matching d'images visent à offrir une précision élevée tout en s'exécutant plus rapidement. Des modèles comme LightGlue sont conçus pour s'exécuter efficacement sur des appareils avec une puissance de calcul limitée tout en maintenant une bonne qualité de matching.
Link to this sectionApplications concrètes du matching d'images#
Maintenant que nous avons une meilleure compréhension du fonctionnement du matching d'images, examinons quelques applications concrètes où il joue un rôle important.
Link to this sectionRobotique plus intelligente pilotée par le matching d'images#
Les robots opèrent souvent dans des environnements occupés et changeants, où ils ont besoin de comprendre quels objets sont présents et comment ils sont placés. Le matching d'images peut aider les robots à comprendre les objets qu'ils voient en les comparant à des images stockées ou de référence. Cela facilite la reconnaissance des objets par ces robots, le suivi de leurs mouvements et l'adaptation même lorsque l'éclairage ou les angles de caméra changent.
Par exemple, dans un entrepôt, un système de pick-and-place robotisé peut utiliser le matching d'images pour identifier et manipuler différents articles. Le robot saisit d'abord un objet, puis compare son image avec des échantillons de référence pour l'identifier.

Fig 5. Un robot reconnaît et ramasse des objets en les faisant correspondre avec des images de référence. (Source)
Une fois la correspondance trouvée, le robot sait comment trier ou placer l'objet correctement. Cette approche permet aux robots de reconnaître à la fois des objets familiers et nouveaux sans réentraîner l'ensemble du système. Elle les aide également à prendre de meilleures décisions en temps réel, comme organiser des étagères, assembler des pièces ou réorganiser des articles.
Link to this sectionAméliorer la reconstruction 3D avec un meilleur matching d'images#
Dans des domaines tels que la cartographie par drone, la réalité virtuelle et l'inspection de bâtiments, les systèmes doivent souvent reconstruire un modèle 3D à partir de plusieurs images 2D. Pour ce faire, ils s'appuient sur le matching d'images pour identifier des keypoints communs, comme des coins ou des régions texturées, qui apparaissent à travers plusieurs images.
Ces points partagés aident le système à comprendre comment les images se rapportent les unes aux autres dans l'espace 3D. Cette idée est étroitement liée à la Structure from Motion (SfM), une technique qui construit des structures 3D en identifiant et en faisant correspondre des keypoints à travers des images capturées depuis différents points de vue.
Si le matching n'est pas précis, le modèle 3D résultant peut apparaître déformé ou incomplet. Pour cette raison, les chercheurs travaillent à améliorer la fiabilité du matching d'images pour la reconstruction 3D, et les avancées récentes ont montré des résultats prometteurs.
Un exemple intéressant est HashMatch, un algorithme de matching d'images plus rapide et plus robuste. HashMatch convertit les détails de l'image en modèles compacts appelés hash codes, ce qui facilite l'identification des bonnes correspondances et la suppression des outliers, même lorsque l'éclairage ou les points de vue varient.
Lorsqu'il a été testé sur des datasets à grande échelle, HashMatch a produit des modèles de reconstruction 3D plus propres et plus réalistes avec moins d'erreurs d'alignement. Cela le rend particulièrement utile pour des applications comme la cartographie par drone, les systèmes AR et la préservation du patrimoine culturel, où la précision est critique.
Link to this sectionLe rôle du matching d'images dans la réalité augmentée#
En ce qui concerne la réalité augmentée (AR), maintenir les objets virtuels alignés avec le monde réel est souvent un défi. Les environnements extérieurs peuvent changer constamment en fonction des conditions environnementales, telles que la lumière du soleil et la météo. Des différences subtiles dans le monde réel peuvent rendre les éléments virtuels instables ou légèrement déplacés.
Pour résoudre ce problème, les systèmes AR utilisent le matching d'images pour interpréter leur environnement. En comparant les frames de caméra en direct avec des images de référence stockées, ils peuvent comprendre où se trouve l'utilisateur et comment la scène a changé.

Fig 6. Points de caractéristiques appariés entre deux images. (Source: theijes.com)
Par exemple, dans une étude impliquant un entraînement AR extérieur de style militaire avec des lunettes XR (Extended Reality), les chercheurs ont utilisé SIFT et d'autres méthodes basées sur les caractéristiques pour faire correspondre les détails visuels entre les images réelles et de référence. Des correspondances précises maintenaient les éléments virtuels correctement alignés avec le monde réel, même lorsque l'utilisateur se déplaçait rapidement ou que l'éclairage changeait.
Link to this sectionPoints clés#
Le matching d'images est une composante essentielle de la computer vision, permettant aux systèmes de comprendre comment différentes images se rapportent les unes aux autres ou comment une scène change au fil du temps. Il joue un rôle critique dans la robotique, la réalité augmentée, la reconstruction 3D, la navigation autonome et de nombreuses autres applications concrètes où la précision et la stabilité sont essentielles.
Avec des modèles d'IA avancés comme SuperPoint et LoFTR, les systèmes d'aujourd'hui deviennent bien plus robustes que les méthodes précédentes. À mesure que les techniques de machine learning, les modules de vision spécialisés, les réseaux de neurones et les datasets continuent de progresser, le matching d'images deviendra probablement plus rapide, plus précis et plus adaptable.
Rejoins notre communauté grandissante et explore notre dépôt GitHub pour des ressources IA pratiques. Pour construire avec l'IA de vision dès aujourd'hui, explore nos options de licence. Apprends comment l'IA en agriculture transforme l'agriculture et comment la Vision IA en santé façonne l'avenir en visitant nos pages de solutions.






