Découvrez ImageNet, l'ensemble de données révolutionnaire qui alimente les avancées de la vision par ordinateur avec plus de 14 millions d'images, alimentant la recherche, les modèles et les applications d'IA.
ImageNet est un ensemble de données massif et accessible au public, contenant plus de 14 millions d'images qui ont été annotées manuellement pour indiquer les objets qu'elles représentent. Organisé selon la hiérarchie WordNet, il contient plus de 20 000 catégories, une catégorie typique, telle que « ballon » ou « fraise », étant constituée de plusieurs centaines d'images. Cette collection vaste et diversifiée a joué un rôle déterminant dans l'avancement des domaines de la vision par ordinateur (CV) et de l'apprentissage profond (DL), servant de norme pour l'entraînement et l'évaluation des modèles.
La création d'ImageNet par des chercheurs de l'Université de Stanford a été un moment charnière pour l'intelligence artificielle (IA). Avant ImageNet, les ensembles de données étaient souvent trop petits pour entraîner efficacement des réseaux neuronaux (NN) complexes, ce qui entraînait des problèmes tels que le surapprentissage. ImageNet a fourni l'échelle nécessaire pour entraîner des modèles profonds, ouvrant la voie à la révolution moderne de l'IA. Vous pouvez en apprendre davantage en lisant l'article de recherche original sur ImageNet.
L'influence d'ImageNet a été amplifiée par l'ImageNet Large Scale Visual Recognition Challenge (ILSVRC), un concours annuel qui s'est tenu de 2010 à 2017. Ce défi est devenu une référence essentielle pour évaluer les performances des algorithmes de vision par ordinateur. En 2012, un réseau neuronal convolutif (CNN) nommé AlexNet a remporté une victoire décisive, surpassant considérablement tous les modèles précédents. Ce succès a démontré la puissance du deep learning et du calcul GPU, déclenchant une vague d'innovation dans le domaine. L'ILSVRC a été un moteur essentiel dans le développement de nombreuses architectures modernes, et vous pouvez voir comment les modèles actuels fonctionnent sur divers benchmarks sur des sites comme Papers with Code.
L'utilisation principale d'ImageNet est une ressource pour les modèles de pré-entraînement. En entraînant un modèle sur cet ensemble de données vaste, il apprend à reconnaître un ensemble riche de caractéristiques visuelles. Ces connaissances peuvent ensuite être transférées à des tâches nouvelles et plus spécifiques. Cette technique est connue sous le nom d'apprentissage par transfert.
Il est important de différencier ImageNet des autres termes et ensembles de données connexes :
Les modèles comme YOLO11 sont souvent pré-entraînés sur ImageNet pour leur backbone de classification avant d'être entraînés sur COCO pour les tâches de détection. Ce processus d'entraînement en plusieurs étapes tire parti des forces des deux ensembles de données. Vous pouvez voir comment différents modèles se comparent sur ces benchmarks sur nos pages de comparaison de modèles. Bien que très influent, il convient de noter qu'ImageNet a des limites, y compris des biais d'ensemble de données connus qu'il est important de prendre en compte d'un point de vue de l'éthique de l'IA.