Glossaire

Reconnaissance d'images

Découvrez comment la reconnaissance d'images permet à l'IA de classer et de comprendre les éléments visuels, ce qui favorise l'innovation dans les domaines de la santé, de la vente au détail, de la sécurité, etc.

La reconnaissance d'images est une branche essentielle de l'intelligence artificielle (IA) et de la vision par ordinateur (VA) qui permet aux machines d'identifier et d'interpréter des informations visuelles à partir d'images ou de vidéos. Il ne s'agit pas simplement de voir des pixels, mais de comprendre le contenu, tel que les objets, les personnes, les scènes et les actions représentés dans les données visuelles. Cette technologie est à la base d'innombrables applications, permettant aux systèmes de "voir" et de comprendre le monde d'une manière similaire à celle des humains.

Comment fonctionne la reconnaissance d'images

La reconnaissance d'images repose essentiellement sur l'apprentissage automatique (ML), en particulier sur les algorithmes d'apprentissage profond (DL). Les réseaux neuronaux convolutifs (CNN) sont un composant fondamental, conçu pour apprendre automatiquement et de manière adaptative des hiérarchies spatiales de caractéristiques à partir d'images. Le processus consiste généralement à entraîner un modèle sur de vastes ensembles de données d'images étiquetées, comme le célèbre ensemble de données ImageNet, où chaque image est étiquetée avec des informations sur son contenu, souvent organisées à l'aide de structures telles que la hiérarchie WordNet. Au cours de la formation, le modèle apprend à associer des motifs et des caractéristiques visuelles spécifiques (comme les bords, les textures, les formes) à différentes étiquettes ou catégories. Des architectures telles que ResNet ont permis d'améliorer considérablement les performances de ces tâches. Une fois entraîné, le modèle peut analyser de nouvelles images inédites et prédire les objets ou les concepts qu'elles contiennent. La compréhension de ces concepts peut être approfondie grâce à des ressources telles que la spécialisation en apprentissage profond. Si ImageNet est essentiel pour la classification, des ensembles de données tels que COCO sont également vitaux pour des tâches de compréhension visuelle plus larges. Un entraînement efficace des modèles nécessite une planification et une exécution minutieuses.

Distinctions par rapport à des termes apparentés

Bien qu'elle soit liée à d'autres tâches de vision par ordinateur, la reconnaissance d'images est souvent utilisée comme un terme plus large englobant plusieurs capacités spécifiques. Il est important de la distinguer des tâches plus restreintes :

La reconnaissance d'images peut parfois se référer spécifiquement à la classification d'images, mais elle implique souvent la capacité plus large de comprendre le contenu d'une image, ce qui peut impliquer la détection ou la segmentation en fonction des besoins de l'application.

Applications dans le monde réel

La reconnaissance d'images est à l'origine d'un large éventail d'applications dans divers secteurs :

Ce domaine est en constante évolution, sous l'impulsion de recherches partagées dans le cadre d'événements tels que la conférence sur la vision artificielle et la reconnaissance des formes (CVPR) et d'organisations telles que la Computer Vision Foundation (CVF). Vous trouverez des informations pratiques sur le blog Google Cloud AI.

Outils et formation

Le développement d'applications de reconnaissance d'images implique souvent l'utilisation de bibliothèques et de cadres spécialisés. Les technologies clés sont les suivantes

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers