Découvre ImageNet, l'ensemble de données révolutionnaire qui alimente les progrès de la vision par ordinateur avec plus de 14 millions d'images, qui alimente la recherche, les modèles et les applications de l'IA.
ImageNet est un très grand ensemble de données fondamentales largement utilisé dans la recherche et le développement de la vision par ordinateur (VA). Il contient plus de 14 millions d'images qui ont été annotées manuellement pour indiquer les objets représentés. Ces images sont organisées selon la hiérarchie WordNet, une grande base de données lexicale de noms, verbes, adjectifs et adverbes English regroupés en ensembles de synonymes cognitifs (synsets). Avec plus de 20 000 catégories, ImageNet constitue une ressource riche et diversifiée pour l'entraînement et l'évaluation de modèles d'apprentissage automatique, en particulier pour des tâches telles que la classification et la reconnaissance d'images. Son ampleur et ses annotations détaillées ont joué un rôle crucial dans l'avancement du domaine de l'intelligence artificielle (IA). Tu peux en savoir plus sur l'utilisation de l'ensemble de données avec les modèles Ultralytics sur la page de documentation de l'ensemble de données ImageNet.
L'introduction d'ImageNet a marqué un moment charnière pour l'apprentissage profond (AP), en particulier dans le domaine de la vision par ordinateur. Avant ImageNet, le manque d'ensembles de données volumineux, diversifiés et bien étiquetés constituait un goulot d'étranglement majeur qui entravait les progrès. Des ensembles de données de haute qualité comme ImageNet ont permis l'entraînement de modèles beaucoup plus profonds et complexes, tels que les réseaux neuronaux convolutifs (CNN), ce qui a conduit à des percées significatives dans les tâches de compréhension visuelle. Le concours annuel ImageNet Large Scale Visual Recognition Challenge (ILSVRC), qui s'est déroulé de 2010 à 2017, a utilisé un sous-ensemble d'ImageNet et est devenu l'ensemble de données de référence standard pour évaluer les algorithmes de classification d'images et de détection d'objets. Des modèles révolutionnaires comme AlexNet et ResNet, qui ont obtenu des résultats de pointe sur ImageNet, ont fortement influencé les architectures CV modernes et démontré la puissance de l'apprentissage profond sur des données à grande échelle. L'article original de l'ILSVRC fournit de plus amples détails sur le défi et son impact.
L'application principale d'ImageNet est de servir de référence standard pour évaluer les performances(précision, vitesse) des nouveaux modèles et algorithmes de vision par ordinateur, en particulier pour la classification des images. Son adoption généralisée permet aux chercheurs de comparer les résultats de manière équitable. Au-delà de l'évaluation comparative, ImageNet est largement utilisé pour le pré-entraînement des modèles. Le pré-entraînement consiste à entraîner d'abord un modèle sur l'ensemble de données ImageNet, vaste et général, afin de lui permettre d'apprendre des caractéristiques visuelles robustes. Ces modèles pré-entraînés, souvent disponibles par le biais d'outils tels que PyTorch et TensorFlowpeuvent ensuite être affinés sur des ensembles de données plus petits et plus spécifiques pour diverses tâches en aval à l'aide de l'apprentissage par transfert. Cela permet de réduire considérablement la quantité de données et de calculs nécessaires pour la tâche cible et conduit souvent à de meilleures performances, en particulier lorsque l'ensemble de données cible est petit. Beaucoup de Ultralytics YOLO d'Ultralytics, par exemple, s'appuient sur des stratégies de pré-entraînement. Des plateformes comme Ultralytics HUB facilitent le processus de formation des modèles à l'aide de ces techniques.
L'impact d'ImageNet s'étend bien au-delà de la recherche universitaire et se traduit par des applications pratiques :
Il est important de distinguer ImageNet des tâches qu'il prend en charge et d'autres ensembles de données connexes :
Bien qu'incroyablement influent, ImageNet présente également des limites, notamment des biais potentiels du jeu de données reflétant la période et les sources de collecte des données, ce qui est une considération importante en matière d'éthique de l'IA.