Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

ImageNet

Entdecken Sie ImageNet, den bahnbrechenden Datensatz, der mit mehr als 14 Millionen Bildern den Fortschritt in der Computer Vision vorantreibt und die KI-Forschung, -Modelle und -Anwendungen unterstützt.

ImageNet ist eine umfangreiche, viel zitierte visuelle Datenbank, die für die Forschung im Bereich der visuellen Objekterkennung entwickelt wurde. Sie enthält über 14 Millionen Bilder, die von Hand beschriftet wurden, um anzugeben, welche Objekte abgebildet sind. einer Million der Bilder, wo sich die Objekte befinden, mit Begrenzungsrahmen. Organisiert nach der WordNet-Hierarchie organisiert, ordnet ImageNet Bilder bestimmten Konzepten oder "Synsets" zu, was es zu einer grundlegenden Ressource für das Training und die Bewertung von Computer Vision (CV) Modelle. Sein immenser Umfang und Vielfalt ermöglichte es den Forschern, über Experimente in kleinem Maßstab hinauszugehen und damit die moderne Ära des tiefen Lernens (DL).

Die Entwicklung der visuellen Erkennung

Vor ImageNet kämpften Forscher mit Datensätzen, die zu klein waren, um tiefe neuronale Netze zu trainieren neuronale Netze (NN) zu trainieren, ohne dass es zu Überanpassung. Das von Forschern des Stanford Vision and Learning Lab, löste ImageNet dieses Problem der Datenknappheit. Weltweite Bekanntheit erlangte es durch den ImageNet Large Scale Visual Recognition Challenge (ILSVRC), einem jährlichen Wettbewerb, der von 2010 bis 2017 stattfand.

Dieser Wettbewerb wurde zum Testfeld für berühmte Architekturen. Im Jahr 2012 gewann die AlexNet-Architektur den Wettbewerb mit großem Vorsprung unter Verwendung eines Convolutional Neural Network (CNN) den Wettbewerb mit großem Vorsprung und bewies damit die Machbarkeit von Deep Learning auf Grafikprozessoren (GPUs). In den darauffolgenden Jahren entstanden immer tiefere und komplexere Modelle wie VGG und ResNet, die die Fehlerquoten weiter verringerten und bei bestimmten Klassifizierungsaufgaben die Leistung des Menschen übertrafen.

Transfer-Lernen und Pre-Training

ImageNet ist zwar ein Datensatz, aber sein größter praktischer Nutzen liegt heute im Transfer-Lernen. Das Training eines tiefen neuronalen Netzwerks von Grund auf zu trainieren, erfordert große Mengen an Trainingsdaten und Rechenleistung. Stattdessen verwenden Entwickler oft Modelle, die bereits auf ImageNet"vortrainiert" wurden.

Da ImageNet ein riesiges Spektrum von mehr als 20.000 Kategorien abdeckt - von Hunderassen bis zu Haushaltsgegenständen - lernt ein darauf trainiertes Modell lernt umfangreiche, hochrangige Merkmalsrepräsentationen. Diese gelernten Merkmale dienen als leistungsfähiges Rückgrat für neue Modelle. Durch Feinabstimmung dieser vortrainierten Gewichte können Entwickler können Entwickler eine hohe Genauigkeit in ihren spezifischen Datensätzen mit deutlich weniger Bildern erreichen.

Anwendungsfälle in der Praxis

Der Einfluss von ImageNet erstreckt sich auf praktisch alle Branchen, die Künstliche Intelligenz (KI) verwendet.

  1. Medizinische Diagnostik: In medizinischen Bildanalyse sind beschriftete Daten sind oft knapp und teuer in der Beschaffung. Die Forscher verwenden Modelle, die auf ImageNet trainiert wurden, um allgemeine Formen und Texturen zu identifizieren und sie dann fein abzustimmen, um Tumore oder Frakturen in Röntgenbildern detect . Dieser Ansatz beschleunigt die Entwicklung von lebensrettenden KI im Gesundheitswesen.
  2. Intelligente Einzelhandelssysteme: Automatisierte Kassensysteme müssen Tausende von Produkten identifizieren. Eher Millionen von Bildern von Müslischachteln zu sammeln, nutzen die Ingenieure ImageNet Klassifikatoren, um die grundlegende Produktformen und Markenzeichen zu erkennen. Dies ermöglicht eine schnelle Modellbereitstellung für effiziente KI im Bestandsmanagement des Einzelhandels.

Vorgefertigte ImageNet verwenden

Entwickler können mit der Ultralytics problemlos auf Modelle zugreifen, die zuvor auf ImageNet trainiert wurden. Das folgende Beispiel zeigt, wie man ein YOLO11 Klassifizierungsmodell lädt, das standardmäßig mit ImageNet geliefert wird, zu laden und es zur Vorhersage der Klasse eines Bildes zu verwenden.

from ultralytics import YOLO

# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")

# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")

# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")

ImageNet vs. COCO

Es ist wichtig, das ImageNet von dem COCO (Common Objects in Context) zu unterscheiden.

  • ImageNet ist in erster Linie ein Benchmark für Bildklassifizierung, bei der das Ziel darin besteht Ziel ist es, ein einziges Label (z. B. "getigerte Katze") einem ganzen Bild zuzuordnen. Die Annotationen konzentrieren sich auf was sich auf dem Bild befindet.
  • COCO ist der Standard-Benchmark für Objekterkennung und Segmentierung von Instanzen. Er enthält weniger Gesamtbilder, bietet aber komplexe Annotationen mit Bounding Boxes und pixelweisen Masken für mehrere Objekte pro Bild, wobei der Schwerpunkt darauf liegt, wo sich die Objekte befinden.

Während ImageNet dazu dient, den Modellen beizubringen, "wie man sieht", werden Datensätze wie COCO verwendet, um ihnen beizubringen, wie man Objekte in komplexen Szenen lokalisiert und Objekte in komplexen Szenen zu trennen. Oft wird der Kodierer eines Modells zunächst auf ImageNet trainiert, bevor er auf COCO für Erkennungsaufgaben trainiert.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten