Guides

Qu'est-ce que le Scale-Invariant Feature Transform (SIFT) ?

Explore l'algorithme SIFT. Apprends ce qu'est SIFT et ses fonctionnalités puissantes pour une vision par ordinateur invariante à l'échelle. Améliore ton traitement d'image.

ABAbirami Vina

6 min readSeptember 9, 2025

L'algorithme Scale-Invariant Feature Transform (SIFT) en vision par ordinateur

Pour une présentation visuelle des concepts abordés dans cet article, regarde la vidéo ci-dessous.

De nos jours, bon nombre des appareils intelligents que nous utilisons, des téléphones et appareils photo aux systèmes domotiques, sont équipés de solutions d'IA capables de reconnaître les visages, les objets et même des scènes visuelles entières. Cette capacité provient de la vision par ordinateur, un domaine de l'intelligence artificielle qui permet aux machines de comprendre et d'interpréter des images et des vidéos.

Par exemple, si tu prends une photo de la tour Eiffel sous n'importe quel angle ou à n'importe quelle distance, ton appareil peut généralement la reconnaître grâce à la vision par ordinateur et l'organiser dans le dossier correct de ta galerie. Bien que cela semble simple, la reconnaissance d'objets ne l'est pas toujours. Les images peuvent paraître très différentes selon leur taille, leur angle, leur échelle ou leur luminosité, ce qui rend difficile pour les machines de les identifier de manière cohérente.

Pour aider à résoudre ce problème, des chercheurs ont développé un algorithme de vision par ordinateur appelé Scale Invariant Feature Transform, ou SIFT. Cet algorithme permet de détecter des objets dans différentes conditions de visualisation. Créé par David Lowe en 1999, SIFT a été conçu pour trouver et décrire des points clés uniques dans une image, comme des coins, des bords ou des motifs qui restent reconnaissables même lorsque l'image est redimensionnée, pivotée ou éclairée différemment.

Avant que les modèles de vision par ordinateur basés sur l'apprentissage profond comme Ultralytics YOLO11 ne deviennent populaires, SIFT était une technique largement utilisée en vision par ordinateur. C'était une approche standard pour des tâches telles que la reconnaissance d'objets, où l'objectif est d'identifier un élément spécifique sur une photo, et la mise en correspondance d'images, où les photos sont alignées en trouvant des caractéristiques d'image qui se chevauchent.

Dans cet article, nous explorerons SIFT avec un aperçu rapide de ce qu'il est, de son fonctionnement général et de son importance dans l'évolution de la vision par ordinateur. Commençons !

Link to this sectionPourquoi l'algorithme SIFT est essentiel pour la vision par ordinateur#

Dans une image, un objet peut apparaître de nombreuses manières différentes. Par exemple, une tasse de café peut être photographiée d'en haut, de côté, sous une lumière vive ou sous une lampe chaude. La même tasse peut aussi paraître plus grande lorsqu'elle est proche de l'appareil photo et plus petite lorsqu'elle en est éloignée.

Toutes ces différences font de l'apprentissage de la reconnaissance d'un objet par un ordinateur une tâche complexe. Cette tâche de vision par ordinateur, connue sous le nom de détection d'objets, exige que les modèles de Vision AI identifient et localisent les objets avec précision, même lorsque leur taille, leur angle ou leurs conditions d'éclairage changent.

Pour rendre cela possible, la vision par ordinateur repose sur un processus appelé extraction de caractéristiques ou détection. Au lieu d'essayer de comprendre l'image entière d'un seul coup, un modèle recherche des caractéristiques d'image distinctives telles que des coins nets, des motifs uniques ou des textures qui restent reconnaissables à travers différents angles, échelles et conditions d'éclairage.

En particulier, c'est ce que la Scale Invariant Feature Transform, ou SIFT, a été conçue pour faire. SIFT est un algorithme de détection et de description de caractéristiques qui permet d'identifier de manière fiable des objets dans des images, quelle que soit la manière dont elles sont capturées.

Link to this sectionAtteindre l'invariance d'échelle#

L'algorithme SIFT possède quelques propriétés importantes qui le rendent utile pour la reconnaissance d'objets. L'une des propriétés clés est appelée invariance d'échelle. Cela signifie que SIFT peut reconnaître diverses parties d'un objet, qu'il paraisse grand et proche de l'appareil photo ou petit et lointain. Même si l'objet n'est pas entièrement visible, l'algorithme peut toujours extraire les mêmes points clés.

Il y parvient en utilisant un concept appelé théorie de l'espace-échelle. Pour faire simple, l'image est floutée à différents niveaux pour créer plusieurs versions. SIFT examine ensuite ces versions pour trouver des motifs et des détails qui restent identiques, indépendamment de la façon dont l'image change en taille ou en netteté.

Par exemple, un panneau de signalisation photographié à quelques mètres de distance paraîtra beaucoup plus grand que le même panneau capturé à distance, mais SIFT peut tout de même détecter les mêmes caractéristiques distinctives. Cela permet de faire correspondre les deux images correctement, même si le panneau apparaît à des échelles très différentes.

Link to this sectionAssurer l'invariance par rotation#

Les objets dans les images peuvent également apparaître pivotés, parfois même à l'envers. SIFT gère cela grâce à une propriété appelée invariance par rotation. Pour chaque point clé qu'il détecte, l'algorithme attribue une orientation cohérente basée sur les gradients locaux de l'image. De cette façon, le même objet peut être reconnu quel que soit son angle de rotation.

Tu peux imaginer cela comme marquer chaque point clé avec une petite flèche qui montre la direction vers laquelle il pointe. En alignant les caractéristiques sur ces orientations, SIFT garantit que les points clés correspondent correctement même lorsque l'objet est pivoté. Par exemple, un monument capturé sur une photo de paysage peut toujours être identifié correctement même si une autre photo de celui-ci est prise avec l'appareil photo incliné à un certain angle.

Link to this sectionRésilience à d'autres variations d'image#

Au-delà de la taille et de la rotation, les images peuvent également changer d'autres manières, comme par des changements d'illumination. L'éclairage sur un objet peut passer de vif à faible, l'angle de la caméra peut légèrement changer, ou l'image peut être floue ou bruitée.

SIFT est conçu pour gérer ces types de variations. Il y parvient en se concentrant sur des points clés qui sont distinctifs et très contrastés, car ces caractéristiques sont moins affectées par les changements d'éclairage ou les petits déplacements du point de vue. En conséquence, SIFT a tendance à être plus fiable que les méthodes simples de détection de bords ou de coins, qui échouent souvent lorsque les conditions changent.

Points clés SIFT extraits d'une image pluvieuse et de son image d'entrée propre

Fig 1. Points clés SIFT extraits de (a) une image pluvieuse et (b) son image d'entrée propre correspondante. (Source)

Considère une peinture dans une galerie. Elle peut toujours être reconnue, qu'elle soit photographiée sous une lumière douce du jour, sous des projecteurs artificiels brillants, ou même avec un léger flou de bougé provenant d'un appareil photo tenu à la main. Les points clés restent suffisamment stables pour une mise en correspondance précise malgré ces différences.

Link to this sectionComment fonctionne l'algorithme Scale-Invariant Feature Transform (SIFT)#

Ensuite, regardons comment fonctionne l'algorithme SIFT. Ce processus peut être divisé en quatre étapes principales : la détection des points clés, la localisation des points clés, l'attribution de l'orientation et la description des points clés.

Link to this sectionÉtape 1 : Détection des extrema dans l'espace-échelle#

La première étape consiste à trouver et à détecter les points clés, qui sont des endroits distinctifs dans l'image, comme des coins ou des changements nets de texture, qui aident à suivre ou à reconnaître un objet.

Pour s'assurer que ces points clés potentiels peuvent être reconnus quelle que soit leur taille, SIFT construit ce qu'on appelle un espace-échelle. Il s'agit d'une collection d'images créées en floutant progressivement l'image originale avec un filtre gaussien, qui est une technique de lissage, et en regroupant les résultats dans des couches appelées octaves. Chaque octave contient la même image à des niveaux de flou croissants, tandis que l'octave suivante est une version plus petite de l'image.

En soustrayant une image floue d'une autre, SIFT calcule la Différence de Gaussiennes (DoG), qui met en évidence les zones où la luminosité change brusquement. Ces zones sont choisies comme points clés candidats car elles restent cohérentes lorsque l'image est agrandie ou réduite.

Le DoG met en évidence les structures clés en soustrayant des images floutées à différents niveaux

Fig 2. DoG met en évidence les structures clés en soustrayant des images floutées à différents niveaux. (Source)

Link to this sectionÉtape 2 : Localisation des points clés#

Tous les points clés candidats ne sont pas utiles car certains peuvent être faibles ou instables. Pour les affiner, SIFT utilise une méthode mathématique appelée développement en série de Taylor, qui aide à estimer la position exacte d'un point clé avec une plus grande précision.

Au cours de cette étape, les points non fiables sont supprimés. Les points clés à faible contraste, qui se fondent dans leur environnement, sont écartés, tout comme ceux qui se trouvent directement sur des bords, car ils peuvent se déplacer trop facilement. Cette étape de filtrage ne laisse que les points clés les plus stables et les plus distinctifs.

Link to this sectionÉtape 3 : Attribution de l'orientation#

Une fois les points clés stables identifiés, SIFT les rend invariants par rotation, ce qui signifie qu'ils peuvent toujours être mis en correspondance même si l'image est tournée sur le côté ou à l'envers. Pour ce faire, SIFT analyse comment la luminosité change autour de chaque point clé, ce qui est connu sous le nom de gradient. Les gradients montrent à la fois la direction et la force du changement de l'intensité des pixels, et ensemble, ils capturent la structure locale autour du point.

Pour chaque point clé, SIFT prend en compte les gradients dans une région environnante et les regroupe dans un histogramme d'orientations. Le pic le plus élevé dans cet histogramme indique la direction dominante du changement d'intensité, qui est ensuite attribuée comme l'orientation du point clé. À la fois les directions de gradient, qui montrent où l'intensité change, et les magnitudes de gradient, qui indiquent la force de ce changement, sont utilisées pour construire cet histogramme.

S'il existe d'autres pics presque aussi forts, SIFT attribue plusieurs orientations au même point clé. Cela empêche la perte de caractéristiques importantes lorsque les objets apparaissent sous des angles inhabituels. En alignant chaque point clé avec son orientation, SIFT garantit que les descripteurs générés à l'étape suivante restent cohérents.

En d'autres termes, même si deux images du même objet sont tournées différemment, les points clés alignés sur leur orientation correspondront toujours correctement. Cette étape est ce qui donne à SIFT sa forte capacité à gérer la rotation et le rend bien plus robuste que les méthodes précédentes de détection de caractéristiques.

Un examen plus approfondi de l'étape 3 de l'algorithme SIFT

Fig 3. Un regard plus attentif sur l'étape 3 de l'algorithme SIFT (Source)

Link to this sectionÉtape 4 : Descripteur de point clé#

La dernière étape de SIFT consiste à créer une description de chaque point clé afin qu'il puisse être reconnu dans d'autres images.

SIFT y parvient en observant une petite zone carrée autour de chaque point clé, d'environ 16 par 16 pixels. Cette zone est d'abord alignée sur l'orientation du point clé pour que la rotation ne l'affecte pas. La zone est ensuite divisée en une grille de 4 par 4 petits carrés.

Dans chaque petit carré, SIFT mesure comment la luminosité change dans différentes directions. Ces changements sont stockés dans ce qu'on appelle un histogramme, qui ressemble à un graphique montrant quelles directions sont les plus courantes. Chaque carré obtient son propre histogramme, et ensemble, les 16 carrés produisent 16 histogrammes.

Enfin, ces histogrammes sont combinés en une seule liste de nombres, 128 au total. Cette liste est appelée vecteur de caractéristiques, et elle agit comme une empreinte digitale pour le point clé. Parce qu'elle capture la texture et la structure uniques autour du point, cette empreinte digitale permet de faire correspondre le même point clé à travers différentes images, même si elles sont redimensionnées, pivotées ou éclairées différemment.

Un aperçu du fonctionnement de SIFT

Fig 4. Un aperçu du fonctionnement de SIFT (Source)

Link to this sectionApplications clés de SIFT dans la vision par ordinateur#

Maintenant que nous avons une meilleure compréhension de ce qu'est SIFT et de son fonctionnement, explorons certaines de ses applications concrètes en vision par ordinateur.

Link to this sectionReconnaissance et détection d'objets#

L'une des principales utilisations de SIFT est la reconnaissance et la détection d'objets. Cela implique d'apprendre à un ordinateur à reconnaître et à localiser des objets dans des images, même lorsque les objets ne se ressemblent pas toujours. Par exemple, SIFT peut détecter un livre, peu importe s'il est proche de l'appareil photo, éloigné, ou pivoté sous un angle.

La raison pour laquelle cela fonctionne est que SIFT extrait des points clés qui sont très distinctifs et stables. Lorsque ces points clés sont associés aux descripteurs SIFT, ils forment des caractéristiques SIFT, qui offrent un moyen fiable de faire correspondre le même objet à travers différentes images. Ces caractéristiques capturent des détails uniques de l'objet qui restent cohérents, permettant une mise en correspondance fiable des caractéristiques entre les images même lorsque la taille, la position ou l'orientation de l'objet changent.

Utilisation de SIFT pour reconnaître une couverture de livre dans une nouvelle image prise sous une orientation différente

Fig 5. Utilisation de SIFT pour reconnaître une couverture de livre dans une nouvelle image prise sous une orientation différente de l'originale. Image de l'auteur.

Avant que l'apprentissage profond ne devienne populaire, SIFT était l'une des méthodes les plus fiables pour construire des systèmes de reconnaissance d'objets. Il était largement utilisé dans la recherche et les applications nécessitant la mise en correspondance d'objets à travers de grands jeux de données d'images, même s'il exigeait souvent des ressources informatiques importantes.

Link to this sectionAssemblage d'images et création de panoramas#

SIFT peut également être utilisé pour créer des images panoramiques, qui sont de larges photos réalisées en assemblant plusieurs images. En utilisant SIFT, des points clés distinctifs sont trouvés dans les parties qui se chevauchent de différentes images, puis mis en correspondance les uns avec les autres. Ces correspondances agissent comme des ancres, guidant le processus d'assemblage sur la façon dont les photos doivent être alignées.

Une fois la mise en correspondance terminée, des algorithmes d'assemblage peuvent être utilisés pour calculer l'alignement correct, souvent en utilisant des transformations géométriques qui mappent une image sur une autre. Les images sont ensuite fusionnées de sorte que les coutures disparaissent. Le résultat final est un panorama homogène qui ressemble à une seule photo large, même s'il a été créé à partir de plusieurs prises de vue.

Link to this sectionReconstruction 3D et robotique#

Une autre application intéressante de SIFT est la reconstruction 3D, où plusieurs photos 2D prises sous différents angles sont combinées pour construire un modèle tridimensionnel. SIFT fonctionne en trouvant et en mettant en correspondance les mêmes points à travers ces images.

Une fois les correspondances effectuées, les positions 3D de ces points peuvent être estimées en utilisant la triangulation, une méthode qui calcule la profondeur à partir de différents points de vue. Ce processus fait partie de la structure à partir du mouvement (SfM), une technique qui utilise plusieurs images qui se chevauchent pour estimer la forme 3D d'une scène ainsi que les positions des caméras qui ont pris les photos.

Le résultat est généralement un nuage de points 3D, une collection de points dans l'espace qui esquisse l'objet ou l'environnement. SIFT a été l'un des premiers outils à rendre la structure à partir du mouvement pratique. Bien que des techniques plus récentes soient plus rapides et plus courantes aujourd'hui, SIFT continue d'être appliqué lorsque la précision est plus importante que la vitesse.

SIFT a également été utilisé dans la robotique, en particulier dans le SLAM visuel (Localisation et cartographie simultanées). Le SLAM permet à un robot de déterminer où il se trouve tout en construisant une carte de son environnement en même temps.

Les points clés SIFT agissent comme des points de repère fiables qu'un robot peut reconnaître à travers les images, même lorsque l'éclairage ou les angles changent. En suivant ces points de repère, le robot peut estimer sa position et mettre à jour sa carte à la volée. Bien que des détecteurs de caractéristiques plus rapides soient utilisés plus souvent dans la robotique aujourd'hui, SIFT a joué un rôle important dans les premiers systèmes SLAM et reste essentiel dans les cas où la robustesse est plus critique que la vitesse.

Link to this sectionAvantages et considérations de SIFT#

Bien que l'algorithme SIFT ait été largement utilisé en vision par ordinateur et soit reconnu comme une méthode fiable, il comporte également quelques compromis. C'est pourquoi il est important de peser ses avantages et ses inconvénients avant de décider s'il est adapté à un projet. Passons maintenant en revue ses points forts et ses limites.

Link to this sectionPrincipaux avantages de SIFT#

Voici quelques-uns des avantages de l'utilisation de l'algorithme SIFT :

Invariance d'échelle et de rotation : SIFT fournit des points clés invariants par l'échelle qui restent relativement stables lorsque les objets apparaissent à différentes tailles ou orientations, ce qui représente un pas en avant significatif par rapport aux détecteurs de caractéristiques précédents.
Robustesse modérée aux changements d'éclairage et de point de vue : SIFT peut gérer les changements de luminosité, de contraste ou les petits déplacements de point de vue, bien qu'il soit moins fiable dans des conditions plus extrêmes.
Capacité à travailler dans des scènes encombrées ou partiellement cachées : Puisque SIFT détecte de nombreux points clés locaux, il peut souvent identifier un objet même si une partie de celui-ci est couverte ou si l'arrière-plan est complexe.

Link to this sectionConsidérations sur les performances et alternatives#

Voici certains des inconvénients de l'utilisation de l'algorithme SIFT :

Coûteux en calcul : Le processus en plusieurs étapes de SIFT et ses descripteurs détaillés le rendent plus lent et plus gourmand en ressources que les détecteurs de caractéristiques modernes. Pour améliorer cela, des chercheurs ont développé l'algorithme SURF (Speeded-Up Robust Features), qui utilise des calculs plus rapides pour trouver et décrire des caractéristiques. SURF est moins précis que SIFT dans certains cas, mais il s'exécute beaucoup plus rapidement, ce qui le rend plus pratique pour les tâches sensibles au temps.
Pas idéal pour une utilisation en temps réel : En raison de son coût de calcul, SIFT peine dans les applications où la vitesse est critique, comme le suivi en temps réel ou la robotique mobile.
Polyvalence limitée : Bien que robuste dans de nombreux cas, SIFT est moins efficace lors de changements d'éclairage extrêmes, de grands changements de point de vue ou dans des scènes hautement dynamiques où des algorithmes plus récents ou des méthodes d'apprentissage automatique fonctionnent mieux.

En explorant les avantages et les inconvénients de SIFT, tu remarqueras peut-être que bon nombre de ses limites ont ouvert la voie à des techniques plus avancées. Plus précisément, les réseaux neuronaux convolutifs (CNN) sont apparus comme une alternative puissante.

Un CNN est un type de modèle d'apprentissage profond inspiré par la façon dont le système visuel humain fonctionne. Il traite une image par couches, en commençant par des motifs simples comme des bords et des textures, et en construisant progressivement des formes et des objets plus complexes. Contrairement aux règles de caractéristiques artisanales de SIFT, les CNN apprennent les représentations de caractéristiques directement à partir des données.

Cet apprentissage basé sur les données signifie que les CNN peuvent surpasser SIFT dans les tâches de mise en correspondance de descripteurs et de classification. Les CNN sont également plus expressifs et robustes, s'adaptant mieux à la variabilité et à la complexité des données visuelles.

Par exemple, les modèles basés sur CNN ont obtenu des résultats révolutionnaires sur ImageNet, un jeu de données de référence massif contenant des millions d'images étiquetées à travers des milliers de catégories. Conçu pour tester la capacité des algorithmes à reconnaître et classifier des objets, ImageNet est capable de mettre en évidence l'écart entre les anciennes méthodes basées sur les caractéristiques et l'apprentissage profond.

Les CNN ont rapidement surpassé SIFT en apprenant des représentations bien plus riches et flexibles, leur permettant de reconnaître des objets sous des éclairages changeants, à partir de différents points de vue, et même lorsqu'ils sont partiellement cachés, des scénarios où SIFT échoue souvent.

Link to this sectionPoints clés#

L'algorithme Scale Invariant Feature Transform occupe une place importante dans l'histoire de la vision par ordinateur. Il a fourni un moyen fiable de détecter des caractéristiques même dans des environnements changeants et a influencé bon nombre des méthodes utilisées aujourd'hui.

Bien que les techniques plus récentes soient plus rapides et plus efficaces, SIFT a jeté les bases pour elles. SIFT montre d'où a commencé le progrès actuel en vision par ordinateur et souligne à quel point les systèmes d'IA de pointe ont évolué.

Rejoins notre communauté mondiale et consulte notre dépôt GitHub pour en savoir plus sur la vision par ordinateur. Explore nos pages de solutions pour découvrir des innovations telles que l'IA dans l'agriculture et la vision par ordinateur dans la vente au détail. Consulte nos options de licence et commence à construire ton propre modèle de vision par ordinateur.

Explore solutions

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique

Demander une licence Commencer