Découvrez ImageNet, l'ensemble de données révolutionnaire qui alimente les progrès de la vision par ordinateur avec plus de 14 millions d'images et qui alimente la recherche, les modèles et les applications en matière d'IA.
ImageNet est une base de données visuelles massive et largement citée, conçue pour être utilisée dans la recherche sur les logiciels de reconnaissance visuelle d'objets. Elle contient plus de 14 millions d'images qui ont été annotées à la main pour indiquer quels objets sont représentés et, dans plus d'un million d'images, où les objets sont situés avec des boîtes de délimitation. un million d'images, l'emplacement des objets avec des boîtes de délimitation. Organisé selon la hiérarchie WordNet, ImageNet associe les images à des concepts spécifiques ou "synsets". "synsets", ce qui en fait une ressource fondamentale pour l'entraînement et l'évaluation des modèles de modèles de vision artificielle (CV). Son immense échelle et sa diversité ont permis aux chercheurs d'aller au-delà des expériences à petite échelle, donnant ainsi le coup d'envoi de l'ère moderne de l'apprentissage profond (DL). l 'apprentissage profond (DL).
Avant ImageNet, les chercheurs se débattaient avec des ensembles de données trop petits pour entraîner des réseaux neuronaux profonds sans rencontrer de difficultés. réseaux neuronaux profonds (NN) sans rencontrer de sans se heurter à un surajustement. Créé par des chercheurs du Stanford Vision and Learning Lab, ImageNet a résolu ce problème de pénurie de données. Stanford Vision and Learning Lab, ImageNet a résolu ce problème de pénurie de données. Il a acquis une notoriété mondiale grâce au concours de reconnaissance visuelle à grande échelle ImageNet Large Scale Visual Recognition Challenge (ILSVRC), un concours annuel qui s'est déroulé de 2010 à 2017. concours annuel qui s'est déroulé de 2010 à 2017.
Ce concours est devenu le terrain d'essai d'architectures célèbres. En 2012, l'architecture l'architecture AlexNet a remporté le concours avec une marge significative en utilisant un réseau neuronal convolutif (CNN), prouvant ainsi la viabilité de l'apprentissage profond sur les unités de traitement graphique (GPU). unités de traitement graphique (GPU). Les années suivantes ont vu l'essor de modèles plus profonds et plus complexes tels que VGG et ResNet, qui ont encore réduit les taux d'erreur et dépassé les performances humaines dans des tâches de classification spécifiques.
ImageNet est un ensemble de données, mais son utilité la plus pratique aujourd'hui réside dans l'apprentissage par transfert. l 'apprentissage par transfert. La formation d'un réseau neuronal profond profond à partir de zéro nécessite d'énormes de données d'apprentissage et de puissance de calcul. Au lieu de cela, les développeurs utilisent souvent des modèles qui ont déjà été "prétraités", les développeurs utilisent souvent des modèles qui ont déjà été "pré-entraînés" sur ImageNet.
Comme ImageNet couvre un vaste éventail de plus de 20 000 catégories, allant des races de chiens aux articles ménagers, un modèle formé sur ce réseau apprend de riches représentations de caractéristiques de haut niveau. apprend de riches représentations de caractéristiques de haut niveau. Ces caractéristiques apprises constituent une puissant pour les nouveaux modèles. En en affinant ces poids pré-entraînés, les développeurs peuvent atteindre un haut niveau de précision sur leurs ensembles de données personnalisés avec beaucoup moins d'images.
L'influence d'ImageNet s'étend à pratiquement tous les secteurs d'activité qui utilisent l'intelligence artificielle (IA). l 'intelligence artificielle (IA).
Les développeurs peuvent facilement accéder à des modèles pré-entraînés sur ImageNet en utilisant la bibliothèque Ultralytics . L'exemple suivant montre comment charger un modèle YOLO11 qui est livré par défaut avec les poids d'ImageNet, et de l'utiliser pour prédire la classe, qui est livré par défaut avec les poids ImageNet , et l'utiliser pour prédire la classe d'une image.
from ultralytics import YOLO
# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")
# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
Il est important de distinguer ImageNet du jeu de données COCO (Common Objects in Context).
Alors qu'ImageNet est utilisé pour enseigner aux modèles "comment voir", des ensembles de données tels que COCO sont utilisés pour leur apprendre à localiser et à séparer des objets dans des scènes complexes. comment localiser et séparer des objets dans des scènes complexes. Souvent, l'encodeur d'un modèle est pré-entraîné sur ImageNet avant d'être entraîné sur COCO pour les tâches de détection. COCO pour les tâches de détection.