Glossar

ImageNet

Entdecken Sie ImageNet, den bahnbrechenden Datensatz, der mit mehr als 14 Millionen Bildern den Fortschritt in der Computer Vision vorantreibt und die KI-Forschung, -Modelle und -Anwendungen unterstützt.

ImageNet ist ein umfangreicher, öffentlich zugänglicher Datensatz mit über 14 Millionen Bildern, die von Hand kommentiert wurden, um anzugeben, welche Objekte sie darstellen. Es ist nach der WordNet-Hierarchie organisiert und enthält mehr als 20.000 Kategorien, wobei eine typische Kategorie wie "Luftballon" oder "Erdbeere" aus mehreren hundert Bildern besteht. Diese umfangreiche und vielfältige Sammlung hat die Bereiche Computer Vision (CV) und Deep Learning (DL) entscheidend vorangebracht und dient als Standard für das Training und den Vergleich von Modellen.

Die Schaffung des ImageNet durch Forscher der Stanford University war ein entscheidender Moment für die künstliche Intelligenz (KI). Vor ImageNet waren die Datensätze oft zu klein, um komplexe neuronale Netze (NN) effektiv zu trainieren, was zu Problemen wie Overfitting führte. ImageNet bot die nötige Größe, um tiefe Modelle zu trainieren, und ebnete den Weg für die moderne KI-Revolution. Weitere Informationen finden Sie in der Originalfassung des ImageNet-Forschungspapiers.

Die Imagenet Large Scale Visual Recognition Challenge (ILSVRC)

Der Einfluss von ImageNet wurde durch die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) verstärkt, einen jährlichen Wettbewerb, der von 2010 bis 2017 stattfand. Dieser Wettbewerb wurde zu einem entscheidenden Maßstab für die Bewertung der Leistung von Computer-Vision-Algorithmen. Im Jahr 2012 errang ein Faltungsneuronales Netzwerk (CNN) namens AlexNet einen bahnbrechenden Sieg, der alle vorherigen Modelle deutlich übertraf. Dieser Erfolg demonstrierte die Leistungsfähigkeit von Deep Learning und GPU-Berechnungen und löste eine Welle von Innovationen in diesem Bereich aus. Das ILSVRC hat die Entwicklung vieler moderner Architekturen maßgeblich vorangetrieben, und auf Websites wie Papers with Code können Sie sehen, wie die heutigen Modelle bei verschiedenen Benchmarks abschneiden.

Real-World-Anwendungen von Imagenet

ImageNet dient in erster Linie als Ressource für das Vortraining von Modellen. Durch das Trainieren eines Modells auf diesem riesigen Datensatz lernt es, einen umfangreichen Satz visueller Merkmale zu erkennen. Dieses Wissen kann dann auf neue, spezifischere Aufgaben übertragen werden. Diese Technik ist als Transfer-Lernen bekannt.

  1. Analyse der medizinischen Bildgebung: Ein auf ImageNet vortrainiertes Modell, wie z. B. ein Ultralytics YOLO-Modell, kann auf einem viel kleineren, spezialisierten Datensatz medizinischer Scans fein abgestimmt werden, um spezifische Bedingungen wie Tumore zu erkennen. Das anfängliche Training auf ImageNet bietet eine solide Grundlage für ein allgemeines visuelles Verständnis, das für die Erzielung einer hohen Genauigkeit bei medizinischen Bildanalyseaufgaben, bei denen es nur wenige beschriftete Daten gibt, von entscheidender Bedeutung ist. Dies ist eine wichtige Anwendung für KI im Gesundheitswesen.
  2. Produkterkennung im Einzelhandel: Im Einzelhandel können Modelle so angepasst werden, dass sie Tausende verschiedener Produkte in einem Regal für die automatische Bestandsverwaltung erkennen. Anstatt von Grund auf zu trainieren, kann ein auf ImageNet vortrainiertes Modell schnell an die spezifischen Produkte eines Geschäfts angepasst werden. Dies reduziert den Bedarf an riesigen Mengen an individuellen Trainingsdaten und beschleunigt die Modellbereitstellung. Viele leistungsstarke KI-Lösungen für den Einzelhandel machen sich diesen Ansatz zunutze.

Imagenet vs. Verwandte Konzepte

Es ist wichtig, ImageNet von anderen verwandten Begriffen und Datensätzen abzugrenzen:

  • ImageNet vs. CV-Aufgaben: ImageNet selbst ist ein Datensatz - eineSammlung von beschrifteten Bildern. Es handelt sich nicht um eine Aufgabe. Stattdessen wird es zum Trainieren und Vergleichen von Modellen verwendet, die Aufgaben wie die Bildklassifizierung durchführen, bei der einem Bild eine einzige Bezeichnung zugewiesen wird. Dies unterscheidet sich von der Objekterkennung, bei der Objekte mit Begrenzungsrahmen lokalisiert werden, oder der Bildsegmentierung, bei der jedes Pixel eines Bildes klassifiziert wird.
  • ImageNet vs. COCO: Während ImageNet der Goldstandard für die Klassifizierung ist, sind andere Computer-Vision-Datensätze für andere Aufgaben besser geeignet. Der COCO-Datensatz (Common Objects in Context) zum Beispiel ist der bevorzugte Benchmark für die Objekterkennung und Instanzsegmentierung. Der Grund dafür ist, dass COCO detailliertere Anmerkungen wie Bounding Boxes und Segmentierungsmasken pro Pixel für mehrere Objekte in jedem Bild liefert. Im Gegensatz dazu haben die meisten ImageNet-Bilder nur eine einzige Beschriftung auf Bildebene.

Modelle wie YOLO11 werden häufig zunächst auf ImageNet für ihre Klassifizierung trainiert, bevor sie auf COCO für Erkennungsaufgaben trainiert werden. Durch diesen mehrstufigen Trainingsprozess werden die Stärken beider Datensätze genutzt. Wie die verschiedenen Modelle bei diesen Benchmarks abschneiden, können Sie auf unseren Modellvergleichsseiten nachlesen. Obwohl ImageNet sehr einflussreich ist, ist es erwähnenswert, dass es Einschränkungen hat, einschließlich bekannter Verzerrungen des Datensatzes, die aus einer KI-Ethik-Perspektive zu berücksichtigen sind.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert