Entdecken Sie ImageNet, den bahnbrechenden Datensatz, der mit mehr als 14 Millionen Bildern den Fortschritt in der Computer Vision vorantreibt und die KI-Forschung, -Modelle und -Anwendungen unterstützt.
ImageNet ist eine umfangreiche, viel zitierte visuelle Datenbank, die für die Forschung im Bereich der visuellen Objekterkennung entwickelt wurde. Sie enthält über 14 Millionen Bilder, die von Hand beschriftet wurden, um anzugeben, welche Objekte abgebildet sind. einer Million der Bilder, wo sich die Objekte befinden, mit Begrenzungsrahmen. Organisiert nach der WordNet-Hierarchie organisiert, ordnet ImageNet Bilder bestimmten Konzepten oder "Synsets" zu, was es zu einer grundlegenden Ressource für das Training und die Bewertung von Computer Vision (CV) Modelle. Sein immenser Umfang und Vielfalt ermöglichte es den Forschern, über Experimente in kleinem Maßstab hinauszugehen und damit die moderne Ära des tiefen Lernens (DL).
Vor ImageNet kämpften Forscher mit Datensätzen, die zu klein waren, um tiefe neuronale Netze zu trainieren neuronale Netze (NN) zu trainieren, ohne dass es zu Überanpassung. Das von Forschern des Stanford Vision and Learning Lab, löste ImageNet dieses Problem der Datenknappheit. Weltweite Bekanntheit erlangte es durch den ImageNet Large Scale Visual Recognition Challenge (ILSVRC), einem jährlichen Wettbewerb, der von 2010 bis 2017 stattfand.
Dieser Wettbewerb wurde zum Testfeld für berühmte Architekturen. Im Jahr 2012 gewann die AlexNet-Architektur den Wettbewerb mit großem Vorsprung unter Verwendung eines Convolutional Neural Network (CNN) den Wettbewerb mit großem Vorsprung und bewies damit die Machbarkeit von Deep Learning auf Grafikprozessoren (GPUs). In den darauffolgenden Jahren entstanden immer tiefere und komplexere Modelle wie VGG und ResNet, die die Fehlerquoten weiter verringerten und bei bestimmten Klassifizierungsaufgaben die Leistung des Menschen übertrafen.
ImageNet ist zwar ein Datensatz, aber sein größter praktischer Nutzen liegt heute im Transfer-Lernen. Das Training eines tiefen neuronalen Netzwerks von Grund auf zu trainieren, erfordert große Mengen an Trainingsdaten und Rechenleistung. Stattdessen verwenden Entwickler oft Modelle, die bereits auf ImageNet"vortrainiert" wurden.
Da ImageNet ein riesiges Spektrum von mehr als 20.000 Kategorien abdeckt - von Hunderassen bis zu Haushaltsgegenständen - lernt ein darauf trainiertes Modell lernt umfangreiche, hochrangige Merkmalsrepräsentationen. Diese gelernten Merkmale dienen als leistungsfähiges Rückgrat für neue Modelle. Durch Feinabstimmung dieser vortrainierten Gewichte können Entwickler können Entwickler eine hohe Genauigkeit in ihren spezifischen Datensätzen mit deutlich weniger Bildern erreichen.
Der Einfluss von ImageNet erstreckt sich auf praktisch alle Branchen, die Künstliche Intelligenz (KI) verwendet.
Entwickler können mit der Ultralytics problemlos auf Modelle zugreifen, die zuvor auf ImageNet trainiert wurden. Das folgende Beispiel zeigt, wie man ein YOLO11 Klassifizierungsmodell lädt, das standardmäßig mit ImageNet geliefert wird, zu laden und es zur Vorhersage der Klasse eines Bildes zu verwenden.
from ultralytics import YOLO
# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")
# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
Es ist wichtig, das ImageNet von dem COCO (Common Objects in Context) zu unterscheiden.
Während ImageNet dazu dient, den Modellen beizubringen, "wie man sieht", werden Datensätze wie COCO verwendet, um ihnen beizubringen, wie man Objekte in komplexen Szenen lokalisiert und Objekte in komplexen Szenen zu trennen. Oft wird der Kodierer eines Modells zunächst auf ImageNet trainiert, bevor er auf COCO für Erkennungsaufgaben trainiert.