Glossaire

ImageNet

Découvre ImageNet, l'ensemble de données révolutionnaire qui alimente les progrès de la vision par ordinateur avec plus de 14 millions d'images, qui alimente la recherche, les modèles et les applications de l'IA.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

ImageNet est un très grand ensemble de données fondamentales largement utilisé dans la recherche et le développement de la vision par ordinateur (VA). Il contient plus de 14 millions d'images qui ont été annotées manuellement pour indiquer les objets représentés. Ces images sont organisées selon la hiérarchie WordNet, une grande base de données lexicale de noms, verbes, adjectifs et adverbes English regroupés en ensembles de synonymes cognitifs (synsets). Avec plus de 20 000 catégories, ImageNet constitue une ressource riche et diversifiée pour l'entraînement et l'évaluation de modèles d'apprentissage automatique, en particulier pour des tâches telles que la classification et la reconnaissance d'images. Son ampleur et ses annotations détaillées ont joué un rôle crucial dans l'avancement du domaine de l'intelligence artificielle (IA). Tu peux en savoir plus sur l'utilisation de l'ensemble de données avec les modèles Ultralytics sur la page de documentation de l'ensemble de données ImageNet.

Importance et pertinence

L'introduction d'ImageNet a marqué un moment charnière pour l'apprentissage profond (AP), en particulier dans le domaine de la vision par ordinateur. Avant ImageNet, le manque d'ensembles de données volumineux, diversifiés et bien étiquetés constituait un goulot d'étranglement majeur qui entravait les progrès. Des ensembles de données de haute qualité comme ImageNet ont permis l'entraînement de modèles beaucoup plus profonds et complexes, tels que les réseaux neuronaux convolutifs (CNN), ce qui a conduit à des percées significatives dans les tâches de compréhension visuelle. Le concours annuel ImageNet Large Scale Visual Recognition Challenge (ILSVRC), qui s'est déroulé de 2010 à 2017, a utilisé un sous-ensemble d'ImageNet et est devenu l'ensemble de données de référence standard pour évaluer les algorithmes de classification d'images et de détection d'objets. Des modèles révolutionnaires comme AlexNet et ResNet, qui ont obtenu des résultats de pointe sur ImageNet, ont fortement influencé les architectures CV modernes et démontré la puissance de l'apprentissage profond sur des données à grande échelle. L'article original de l'ILSVRC fournit de plus amples détails sur le défi et son impact.

Applications d'ImageNet

L'application principale d'ImageNet est de servir de référence standard pour évaluer les performances(précision, vitesse) des nouveaux modèles et algorithmes de vision par ordinateur, en particulier pour la classification des images. Son adoption généralisée permet aux chercheurs de comparer les résultats de manière équitable. Au-delà de l'évaluation comparative, ImageNet est largement utilisé pour le pré-entraînement des modèles. Le pré-entraînement consiste à entraîner d'abord un modèle sur l'ensemble de données ImageNet, vaste et général, afin de lui permettre d'apprendre des caractéristiques visuelles robustes. Ces modèles pré-entraînés, souvent disponibles par le biais d'outils tels que PyTorch et TensorFlowpeuvent ensuite être affinés sur des ensembles de données plus petits et plus spécifiques pour diverses tâches en aval à l'aide de l'apprentissage par transfert. Cela permet de réduire considérablement la quantité de données et de calculs nécessaires pour la tâche cible et conduit souvent à de meilleures performances, en particulier lorsque l'ensemble de données cible est petit. Beaucoup de Ultralytics YOLO d'Ultralytics, par exemple, s'appuient sur des stratégies de pré-entraînement. Des plateformes comme Ultralytics HUB facilitent le processus de formation des modèles à l'aide de ces techniques.

Exemples concrets

L'impact d'ImageNet s'étend bien au-delà de la recherche universitaire et se traduit par des applications pratiques :

  • Analyse d'images médicales : Les modèles pré-entraînés sur ImageNet sont souvent affinés pour des tâches spécialisées dans l'analyse d'images médicales. Bien que les images médicales diffèrent considérablement des photos ImageNet, les caractéristiques visuelles fondamentales apprises (comme les bords, les textures, les formes de base) constituent un solide point de départ. Cette approche accélère le développement d'outils d'IA pour des tâches telles que la détection de tumeurs dans l'imagerie médicale ou l'identification d'anomalies dans les radiographies ou les tomodensitogrammes, contribuant ainsi aux progrès de l'IA dans le domaine de la santé.
  • Systèmes autonomes : Les systèmes de perception des véhicules autonomes et de la robotique reposent en grande partie sur l'identification précise d'objets tels que les piétons, les voitures, les panneaux de signalisation et les obstacles. Le pré-entraînement des composants de reconnaissance d'objets de ces systèmes sur ImageNet les aide à apprendre les caractéristiques générales des objets, ce qui améliore leur robustesse et leur fiabilité lorsqu'ils sont affinés sur des données spécifiques de conduite ou d'environnement opérationnel. Cela contribue au développement de technologies telles que celles utilisées par Waymo et intégrées dans les solutions d'IA dans l'automobile.

ImageNet et concepts apparentés

Il est important de distinguer ImageNet des tâches qu'il prend en charge et d'autres ensembles de données connexes :

  • ImageNet et les tâches de CV : ImageNet lui-même est un ensemble de données, une collection d'images étiquetées. Il ne s'agit pas d'une tâche comme la classification d'images (attribution d'une seule étiquette à une image), la détection d'objets (localisation d'objets avec des boîtes de délimitation) ou la segmentation d'images (attribution d'une étiquette à chaque pixel, y compris la segmentation d'instances et la segmentation sémantique). Au lieu de cela, ImageNet est principalement utilisé pour former et évaluer les modèles qui effectuent ces tâches, en particulier la classification.
  • ImageNet vs. COCO : Alors qu'ImageNet est la norme en matière de classification, des ensembles de données tels que COCO (Common Objects in Context) sont plus couramment utilisés pour évaluer la détection et la segmentation d'objets. En effet, COCO comprend des annotations plus détaillées nécessaires à ces tâches, telles que des boîtes de délimitation précises et des masques de segmentation par pixel pour plusieurs objets par image, alors qu'ImageNet fournit principalement des étiquettes au niveau de l'image (bien qu'il existe des données sur la localisation des objets). Ultralytics prend en charge une variété d'ensembles de données de vision par ordinateur pour différentes tâches.

Bien qu'incroyablement influent, ImageNet présente également des limites, notamment des biais potentiels du jeu de données reflétant la période et les sources de collecte des données, ce qui est une considération importante en matière d'éthique de l'IA.

Tout lire