Découvrez la classification d'images avec Ultralytics YOLO : entraînez des modèles personnalisés pour les soins de santé, l'agriculture, la vente au détail et plus encore en utilisant des outils de pointe.
La classification d'images est une tâche fondamentale en vision par ordinateur (CV) qui consiste à attribuer une seule étiquette spécifique à une image entière à partir d'un ensemble prédéfini de catégories. L'objectif principal est d'identifier le sujet principal d'une image et de le catégoriser en conséquence. Par exemple, un modèle de classification analyserait une image et produirait une étiquette telle que « chat », « chien » ou « voiture ». Cette tâche constitue la base de nombreuses applications de CV plus complexes et est un élément central de l'apprentissage automatique (ML). Le processus repose sur des algorithmes, notamment les réseaux neuronaux convolutifs (CNN), pour apprendre les caractéristiques distinctives à partir de vastes jeux de données étiquetés.
Les modèles de classification d'images sont entraînés à l'aide de l'apprentissage supervisé, où ils reçoivent un grand nombre d'images qui ont déjà été étiquetées manuellement avec la classe correcte. Pendant l'entraînement, le réseau neuronal apprend à identifier les motifs, les textures, les formes et les combinaisons de couleurs associés à chaque catégorie. Cet apprentissage est réalisé grâce à un processus appelé rétropropagation, qui ajuste les paramètres internes du modèle, ou poids, afin de minimiser la différence entre ses prédictions et les étiquettes réelles.
Les modèles de classification modernes utilisent souvent des architectures d'apprentissage profond avec de nombreuses couches. Les premières couches peuvent apprendre à reconnaître des caractéristiques simples comme les arêtes et les coins, tandis que les couches plus profondes les combinent pour identifier des structures plus complexes comme les yeux, les roues ou les visages. La dernière couche du réseau utilise généralement une fonction softmax pour produire un score de probabilité pour chaque classe possible. La classe avec la probabilité la plus élevée est choisie comme prédiction finale. La extraction de caractéristiques est essentielle à ce processus, car le modèle apprend automatiquement les caractéristiques les plus informatives pour la tâche de classification.
La classification d'images est utilisée dans de nombreux secteurs pour automatiser et mettre à l'échelle les tâches de reconnaissance visuelle. Voici deux exemples importants :
Bien qu'étroitement liée à d'autres tâches de vision par ordinateur, la classification d'images a un objectif distinct. Il est important de la différencier de :
En résumé, la classification vous indique ce qui se trouve dans une image, la détection vous indique quoi et où, et la segmentation fournit une carte détaillée, au niveau des pixels, de tout ce qui se trouve dans la scène.
Bien que réputés pour la détection d'objets, les modèles Ultralytics YOLO excellent également dans les tâches de classification d'images. Les modèles de pointe comme YOLO11 peuvent être facilement entraînés ou affinés sur des ensembles de données personnalisés à l'aide du package Ultralytics Python intuitif ou de la plateforme sans code Ultralytics HUB.
Notre documentation fournit des ressources complètes, y compris des conseils pour l'entraînement des modèles et un guide détaillé sur l'utilisation de YOLO11 pour la classification d'images. Les développeurs peuvent exploiter des modèles pré-entraînés sur des ensembles de données de référence comme ImageNet, CIFAR-100 et Caltech-101 ou entraîner un nouveau modèle à partir de zéro. Pour ceux qui s'intéressent aux dernières avancées, des ressources comme Papers With Code offrent un aperçu complet des modèles les plus performants. Vous pouvez également comparer les performances des modèles YOLO sur des benchmarks standard. Des frameworks comme PyTorch et TensorFlow fournissent la base pour la construction et l'entraînement de ces modèles.