Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

ImageNet

Découvrez ImageNet, l'ensemble de données révolutionnaire qui alimente les progrès de la vision par ordinateur avec plus de 14 millions d'images et qui alimente la recherche, les modèles et les applications en matière d'IA.

ImageNet est une base de données visuelles massive et largement citée, conçue pour être utilisée dans la recherche sur les logiciels de reconnaissance visuelle d'objets. Elle contient plus de 14 millions d'images qui ont été annotées à la main pour indiquer quels objets sont représentés et, dans plus d'un million d'images, où les objets sont situés avec des boîtes de délimitation. un million d'images, l'emplacement des objets avec des boîtes de délimitation. Organisé selon la hiérarchie WordNet, ImageNet associe les images à des concepts spécifiques ou "synsets". "synsets", ce qui en fait une ressource fondamentale pour l'entraînement et l'évaluation des modèles de modèles de vision artificielle (CV). Son immense échelle et sa diversité ont permis aux chercheurs d'aller au-delà des expériences à petite échelle, donnant ainsi le coup d'envoi de l'ère moderne de l'apprentissage profond (DL). l 'apprentissage profond (DL).

L'évolution de la reconnaissance visuelle

Avant ImageNet, les chercheurs se débattaient avec des ensembles de données trop petits pour entraîner des réseaux neuronaux profonds sans rencontrer de difficultés. réseaux neuronaux profonds (NN) sans rencontrer de sans se heurter à un surajustement. Créé par des chercheurs du Stanford Vision and Learning Lab, ImageNet a résolu ce problème de pénurie de données. Stanford Vision and Learning Lab, ImageNet a résolu ce problème de pénurie de données. Il a acquis une notoriété mondiale grâce au concours de reconnaissance visuelle à grande échelle ImageNet Large Scale Visual Recognition Challenge (ILSVRC), un concours annuel qui s'est déroulé de 2010 à 2017. concours annuel qui s'est déroulé de 2010 à 2017.

Ce concours est devenu le terrain d'essai d'architectures célèbres. En 2012, l'architecture l'architecture AlexNet a remporté le concours avec une marge significative en utilisant un réseau neuronal convolutif (CNN), prouvant ainsi la viabilité de l'apprentissage profond sur les unités de traitement graphique (GPU). unités de traitement graphique (GPU). Les années suivantes ont vu l'essor de modèles plus profonds et plus complexes tels que VGG et ResNet, qui ont encore réduit les taux d'erreur et dépassé les performances humaines dans des tâches de classification spécifiques.

Apprentissage par transfert et préformation

ImageNet est un ensemble de données, mais son utilité la plus pratique aujourd'hui réside dans l'apprentissage par transfert. l 'apprentissage par transfert. La formation d'un réseau neuronal profond profond à partir de zéro nécessite d'énormes de données d'apprentissage et de puissance de calcul. Au lieu de cela, les développeurs utilisent souvent des modèles qui ont déjà été "prétraités", les développeurs utilisent souvent des modèles qui ont déjà été "pré-entraînés" sur ImageNet.

Comme ImageNet couvre un vaste éventail de plus de 20 000 catégories, allant des races de chiens aux articles ménagers, un modèle formé sur ce réseau apprend de riches représentations de caractéristiques de haut niveau. apprend de riches représentations de caractéristiques de haut niveau. Ces caractéristiques apprises constituent une puissant pour les nouveaux modèles. En en affinant ces poids pré-entraînés, les développeurs peuvent atteindre un haut niveau de précision sur leurs ensembles de données personnalisés avec beaucoup moins d'images.

Applications concrètes

L'influence d'ImageNet s'étend à pratiquement tous les secteurs d'activité qui utilisent l'intelligence artificielle (IA). l 'intelligence artificielle (IA).

  1. Diagnostic médical: Dans l'analyse l'analyse d'images médicales, les données souvent rares et coûteuses à obtenir. Les chercheurs utilisent des modèles pré-entraînés sur ImageNet pour identifier des formes et des textures générales, puis les affinent pour détecter des tumeurs ou des fractures sur des radiographies. textures, puis les affinent pour detect tumeurs ou les fractures dans les radiographies. Cette approche accélère le développement de l'IA de l 'IA dans les outils de soins de santé.
  2. Systèmes de vente au détail intelligents: Les systèmes de caisse automatisés reposent sur l'identification de milliers de produits. Plutôt que de collecter des millions d'images de boîtes de céréales, les ingénieurs de millions d'images de boîtes de céréales, les ingénieurs s'appuient sur des classificateurs ImageNet pour reconnaître les formes et les marques de base des produits. les formes et les marques de base des produits. Cela permet un déploiement rapide déploiement rapide de modèles pour une L 'IA dans la gestion des stocks du commerce de détail.

Utilisation des modèles pré-entraînés d ImageNet

Les développeurs peuvent facilement accéder à des modèles pré-entraînés sur ImageNet en utilisant la bibliothèque Ultralytics . L'exemple suivant montre comment charger un modèle YOLO11 qui est livré par défaut avec les poids d'ImageNet, et de l'utiliser pour prédire la classe, qui est livré par défaut avec les poids ImageNet , et l'utiliser pour prédire la classe d'une image.

from ultralytics import YOLO

# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")

# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")

# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")

ImageNet vs. COCO

Il est important de distinguer ImageNet du jeu de données COCO (Common Objects in Context).

  • ImageNet est avant tout une référence en matière de classification d'images, où l'objectif est d'attribuer une l'objectif est d'attribuer une étiquette unique (par exemple, "chat tabby") à l'ensemble d'une image. Les annotations se concentrent sur ce qui se trouve dans l'image.
  • COCO est la référence en matière de la détection d'objets et la segmentation d'instances. Il contient moins d'images d'images au total, mais offre des annotations complexes avec avec des boîtes de délimitation et des masques en pixels pour plusieurs objets par image, en se concentrant sur la localisation des objets. objets par image, en se concentrant sur l'emplacement des objets.

Alors qu'ImageNet est utilisé pour enseigner aux modèles "comment voir", des ensembles de données tels que COCO sont utilisés pour leur apprendre à localiser et à séparer des objets dans des scènes complexes. comment localiser et séparer des objets dans des scènes complexes. Souvent, l'encodeur d'un modèle est pré-entraîné sur ImageNet avant d'être entraîné sur COCO pour les tâches de détection. COCO pour les tâches de détection.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant