Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

ImageNet

Découvrez ImageNet, l'ensemble de données révolutionnaire qui alimente les avancées de la vision par ordinateur avec plus de 14 millions d'images, alimentant la recherche, les modèles et les applications d'IA.

ImageNet est un ensemble de données massif et accessible au public, contenant plus de 14 millions d'images qui ont été annotées manuellement pour indiquer les objets qu'elles représentent. Organisé selon la hiérarchie WordNet, il contient plus de 20 000 catégories, une catégorie typique, telle que « ballon » ou « fraise », étant constituée de plusieurs centaines d'images. Cette collection vaste et diversifiée a joué un rôle déterminant dans l'avancement des domaines de la vision par ordinateur (CV) et de l'apprentissage profond (DL), servant de norme pour l'entraînement et l'évaluation des modèles.

La création d'ImageNet par des chercheurs de l'Université de Stanford a été un moment charnière pour l'intelligence artificielle (IA). Avant ImageNet, les ensembles de données étaient souvent trop petits pour entraîner efficacement des réseaux neuronaux (NN) complexes, ce qui entraînait des problèmes tels que le surapprentissage. ImageNet a fourni l'échelle nécessaire pour entraîner des modèles profonds, ouvrant la voie à la révolution moderne de l'IA. Vous pouvez en apprendre davantage en lisant l'article de recherche original sur ImageNet.

Le défi ImageNet Large Scale Visual Recognition Challenge (ILSVRC)

L'influence d'ImageNet a été amplifiée par l'ImageNet Large Scale Visual Recognition Challenge (ILSVRC), un concours annuel qui s'est tenu de 2010 à 2017. Ce défi est devenu une référence essentielle pour évaluer les performances des algorithmes de vision par ordinateur. En 2012, un réseau neuronal convolutif (CNN) nommé AlexNet a remporté une victoire décisive, surpassant considérablement tous les modèles précédents. Ce succès a démontré la puissance du deep learning et du calcul GPU, déclenchant une vague d'innovation dans le domaine. L'ILSVRC a été un moteur essentiel dans le développement de nombreuses architectures modernes, et vous pouvez voir comment les modèles actuels fonctionnent sur divers benchmarks sur des sites comme Papers with Code.

Applications concrètes d'Imagenet

L'utilisation principale d'ImageNet est une ressource pour les modèles de pré-entraînement. En entraînant un modèle sur cet ensemble de données vaste, il apprend à reconnaître un ensemble riche de caractéristiques visuelles. Ces connaissances peuvent ensuite être transférées à des tâches nouvelles et plus spécifiques. Cette technique est connue sous le nom d'apprentissage par transfert.

  1. Analyse d'images médicales : Un modèle pré-entraîné sur ImageNet, tel qu'un modèle Ultralytics YOLO, peut être affiné (fine-tuned) sur un ensemble de données d'images médicales spécialisé beaucoup plus petit pour détecter des conditions spécifiques comme les tumeurs. L'entraînement initial sur ImageNet fournit une base solide de compréhension visuelle générale, ce qui est crucial pour atteindre une grande précision dans les tâches d'analyse d'images médicales où les données étiquetées sont rares. Il s'agit d'une application clé de l'IA dans le domaine de la santé.
  2. Reconnaissance des produits en magasin : Dans le commerce de détail, les modèles peuvent être adaptés pour identifier des milliers de produits différents sur une étagère pour la gestion automatisée des stocks. Au lieu d'un entraînement à partir de zéro, un modèle pré-entraîné sur ImageNet peut être rapidement adapté aux produits spécifiques d'un magasin. Cela réduit le besoin de grandes quantités de données d'entraînement personnalisées et accélère le déploiement du modèle. De nombreuses solutions d'IA puissantes dans le commerce de détail tirent parti de cette approche.

ImageNet vs. Concepts associés

Il est important de différencier ImageNet des autres termes et ensembles de données connexes :

  • ImageNet vs. Tâches de CV : ImageNet lui-même est un ensemble de données — une collection d'images étiquetées. Ce n'est pas une tâche. Au lieu de cela, il est utilisé pour entraîner et évaluer des modèles qui effectuent des tâches telles que la classification d'images, où une seule étiquette est attribuée à une image. Cela diffère de la détection d'objets, qui implique la localisation d'objets avec des boîtes englobantes, ou de la segmentation d'image, qui classe chaque pixel d'une image.
  • ImageNet vs. COCO : Bien qu'ImageNet soit la référence en matière de classification, d'autres ensembles de données de vision par ordinateur sont plus adaptés à d'autres tâches. L'ensemble de données COCO (Common Objects in Context), par exemple, est la référence préférée pour la détection d'objets et la segmentation d'instances. En effet, COCO fournit des annotations plus détaillées, telles que des boîtes englobantes et des masques de segmentation par pixel pour plusieurs objets dans chaque image. En revanche, la plupart des images ImageNet n'ont qu'une seule étiquette au niveau de l'image.

Les modèles comme YOLO11 sont souvent pré-entraînés sur ImageNet pour leur backbone de classification avant d'être entraînés sur COCO pour les tâches de détection. Ce processus d'entraînement en plusieurs étapes tire parti des forces des deux ensembles de données. Vous pouvez voir comment différents modèles se comparent sur ces benchmarks sur nos pages de comparaison de modèles. Bien que très influent, il convient de noter qu'ImageNet a des limites, y compris des biais d'ensemble de données connus qu'il est important de prendre en compte d'un point de vue de l'éthique de l'IA.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers