Découvrez ImageNet, l'ensemble de données révolutionnaire qui alimente les avancées en matière de vision par ordinateur avec plus de 14 millions d'images et qui alimente la recherche, les modèles et les applications en matière d'intelligence artificielle.
ImageNet est un ensemble de données massif et accessible au public, composé de plus de 14 millions d'images qui ont été annotées à la main pour indiquer les objets qu'elles représentent. Organisé selon la hiérarchie WordNet, il contient plus de 20 000 catégories, une catégorie type, telle que "ballon" ou "fraise", étant composée de plusieurs centaines d'images. Cette collection vaste et diversifiée a contribué à faire progresser les domaines de la vision artificielle (CV) et de l'apprentissage profond (DL), en servant de norme pour l'entraînement et l'étalonnage des modèles.
La création d'ImageNet par des chercheurs de l'université de Stanford a marqué un tournant pour l'intelligence artificielle (IA). Avant ImageNet, les ensembles de données étaient souvent trop petits pour entraîner efficacement des réseaux neuronaux complexes, ce qui entraînait des problèmes tels que l'ajustement excessif. ImageNet a fourni l'échelle nécessaire pour entraîner des modèles profonds, ouvrant la voie à la révolution moderne de l'IA. Pour en savoir plus, lisez le document de recherche original sur ImageNet.
L'influence d'ImageNet a été amplifiée par l'ImageNet Large Scale Visual Recognition Challenge (ILSVRC), un concours annuel organisé de 2010 à 2017. Ce défi est devenu une référence cruciale pour l'évaluation des performances des algorithmes de vision par ordinateur. En 2012, un réseau neuronal convolutif (CNN ) nommé AlexNet a remporté une victoire sans précédent, surpassant de manière significative tous les modèles précédents. Ce succès a démontré la puissance de l'apprentissage profond et de l'informatique GPU, déclenchant une vague d'innovation dans le domaine. L'ILSVRC a joué un rôle clé dans le développement de nombreuses architectures modernes, et vous pouvez voir comment les modèles d'aujourd'hui se comportent sur divers points de référence sur des sites tels que Papers with Code.
ImageNet sert principalement de ressource pour le pré-entraînement des modèles. En entraînant un modèle sur ce vaste ensemble de données, il apprend à reconnaître un riche ensemble de caractéristiques visuelles. Ces connaissances peuvent ensuite être transférées à de nouvelles tâches plus spécifiques. Cette technique est connue sous le nom d'apprentissage par transfert.
Il est important de différencier ImageNet d'autres termes et ensembles de données apparentés :
Les modèles tels que YOLO11 sont souvent pré-entraînés sur ImageNet pour leur colonne vertébrale de classification avant d'être entraînés sur COCO pour les tâches de détection. Ce processus de formation en plusieurs étapes permet de tirer parti des atouts des deux ensembles de données. Vous pouvez voir comment différents modèles se comparent à ces points de référence sur nos pages de comparaison de modèles. Bien qu'il soit très influent, il convient de noter qu'ImageNet présente des limites, notamment des biais connus dans les ensembles de données, qu'il est important de prendre en compte du point de vue de l'éthique de l'IA.