Glossaire

ImageNet

Découvrez ImageNet, l'ensemble de données révolutionnaire qui alimente les avancées en matière de vision par ordinateur avec plus de 14 millions d'images et qui alimente la recherche, les modèles et les applications en matière d'intelligence artificielle.

ImageNet est un ensemble de données massif et accessible au public, composé de plus de 14 millions d'images qui ont été annotées à la main pour indiquer les objets qu'elles représentent. Organisé selon la hiérarchie WordNet, il contient plus de 20 000 catégories, une catégorie type, telle que "ballon" ou "fraise", étant composée de plusieurs centaines d'images. Cette collection vaste et diversifiée a contribué à faire progresser les domaines de la vision artificielle (CV) et de l'apprentissage profond (DL), en servant de norme pour l'entraînement et l'étalonnage des modèles.

La création d'ImageNet par des chercheurs de l'université de Stanford a marqué un tournant pour l'intelligence artificielle (IA). Avant ImageNet, les ensembles de données étaient souvent trop petits pour entraîner efficacement des réseaux neuronaux complexes, ce qui entraînait des problèmes tels que l'ajustement excessif. ImageNet a fourni l'échelle nécessaire pour entraîner des modèles profonds, ouvrant la voie à la révolution moderne de l'IA. Pour en savoir plus, lisez le document de recherche original sur ImageNet.

Le défi de la reconnaissance visuelle à grande échelle d'Imagenet (ILSVRC)

L'influence d'ImageNet a été amplifiée par l'ImageNet Large Scale Visual Recognition Challenge (ILSVRC), un concours annuel organisé de 2010 à 2017. Ce défi est devenu une référence cruciale pour l'évaluation des performances des algorithmes de vision par ordinateur. En 2012, un réseau neuronal convolutif (CNN ) nommé AlexNet a remporté une victoire sans précédent, surpassant de manière significative tous les modèles précédents. Ce succès a démontré la puissance de l'apprentissage profond et de l'informatique GPU, déclenchant une vague d'innovation dans le domaine. L'ILSVRC a joué un rôle clé dans le développement de nombreuses architectures modernes, et vous pouvez voir comment les modèles d'aujourd'hui se comportent sur divers points de référence sur des sites tels que Papers with Code.

Applications concrètes d'Imagenet

ImageNet sert principalement de ressource pour le pré-entraînement des modèles. En entraînant un modèle sur ce vaste ensemble de données, il apprend à reconnaître un riche ensemble de caractéristiques visuelles. Ces connaissances peuvent ensuite être transférées à de nouvelles tâches plus spécifiques. Cette technique est connue sous le nom d'apprentissage par transfert.

  1. Analyse de l'imagerie médicale : Un modèle pré-entraîné sur ImageNet, tel qu'un modèle YOLO d'Ultralytics, peut être affiné sur un ensemble de données beaucoup plus petit et spécialisé de scans médicaux pour détecter des conditions spécifiques telles que des tumeurs. La formation initiale sur ImageNet fournit une base solide de compréhension visuelle générale, qui est cruciale pour atteindre une grande précision dans les tâches d'analyse d'images médicales où les données étiquetées sont rares. Il s'agit d'une application clé de l'IA dans le domaine de la santé.
  2. Reconnaissance des produits dans le commerce de détail : Dans le commerce de détail, les modèles peuvent être adaptés pour identifier des milliers de produits différents sur une étagère en vue d'une gestion automatisée des stocks. Au lieu de partir de zéro, un modèle pré-entraîné sur ImageNet peut être rapidement adapté aux produits spécifiques d'un magasin. Cela réduit le besoin de quantités massives de données d'entraînement personnalisées et accélère le déploiement des modèles. De nombreuses solutions puissantes d'IA dans le commerce de détail s'appuient sur cette approche.

Imagenet vs. concepts apparentés

Il est important de différencier ImageNet d'autres termes et ensembles de données apparentés :

  • ImageNet et tâches CV : ImageNet est un ensemble de données - unecollection d'images étiquetées. Il ne s'agit pas d'une tâche. Il est plutôt utilisé pour former et étalonner des modèles qui effectuent des tâches telles que la classification d'images, où une seule étiquette est attribuée à une image. Cette tâche diffère de la détection d'objets, qui consiste à localiser des objets à l'aide de boîtes de délimitation, ou de la segmentation d'images, qui consiste à classer chaque pixel d'une image.
  • ImageNet vs. COCO : Si ImageNet est l'étalon-or de la classification, d'autres ensembles de données de vision par ordinateur conviennent mieux à d'autres tâches. L'ensemble de données COCO (Common Objects in Context), par exemple, est la référence privilégiée pour la détection d'objets et la segmentation d'instances. En effet, COCO fournit des annotations plus détaillées, telles que des boîtes de délimitation et des masques de segmentation par pixel pour plusieurs objets dans chaque image. En revanche, la plupart des images ImageNet ne comportent qu'une seule étiquette au niveau de l'image.

Les modèles tels que YOLO11 sont souvent pré-entraînés sur ImageNet pour leur colonne vertébrale de classification avant d'être entraînés sur COCO pour les tâches de détection. Ce processus de formation en plusieurs étapes permet de tirer parti des atouts des deux ensembles de données. Vous pouvez voir comment différents modèles se comparent à ces points de référence sur nos pages de comparaison de modèles. Bien qu'il soit très influent, il convient de noter qu'ImageNet présente des limites, notamment des biais connus dans les ensembles de données, qu'il est important de prendre en compte du point de vue de l'éthique de l'IA.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers