Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

ImageNet

Entdecken Sie ImageNet, den bahnbrechenden Datensatz, der mit über 14 Millionen Bildern die Fortschritte im Bereich Computer Vision vorantreibt und KI-Forschung, Modelle und Anwendungen unterstützt.

ImageNet ist ein umfangreicher, öffentlich zugänglicher Datensatz mit über 14 Millionen Bildern, die manuell annotiert wurden, um die abgebildeten Objekte zu kennzeichnen. Organisiert nach der WordNet-Hierarchie, enthält er mehr als 20.000 Kategorien, wobei eine typische Kategorie, wie z. B. "Ballon" oder "Erdbeere", aus mehreren hundert Bildern besteht. Diese riesige und vielfältige Sammlung hat maßgeblich zur Weiterentwicklung der Bereiche Computer Vision (CV) und Deep Learning (DL) beigetragen und dient als Standard für das Training und Benchmarking von Modellen.

Die Erstellung von ImageNet durch Forscher der Stanford University war ein entscheidender Moment für die künstliche Intelligenz (KI). Vor ImageNet waren Datensätze oft zu klein, um komplexe neuronale Netze (NN) effektiv zu trainieren, was zu Problemen wie Overfitting führte. ImageNet stellte die Skala bereit, die zum Trainieren tiefer Modelle erforderlich war, und ebnete den Weg für die moderne KI-Revolution. Sie können mehr erfahren, indem Sie das ursprüngliche ImageNet-Forschungspapier lesen.

Die Imagenet Large Scale Visual Recognition Challenge (ILSVRC)

Der Einfluss von ImageNet wurde durch die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) verstärkt, einem jährlichen Wettbewerb, der von 2010 bis 2017 stattfand. Dieser Wettbewerb wurde zu einem entscheidenden Benchmark für die Bewertung der Leistung von Algorithmen für maschinelles Sehen. Im Jahr 2012 erzielte ein Convolutional Neural Network (CNN) namens AlexNet einen bahnbrechenden Sieg und übertraf alle bisherigen Modelle deutlich. Dieser Erfolg demonstrierte die Leistungsfähigkeit von Deep Learning und GPU-Berechnungen und löste eine Innovationswelle in diesem Bereich aus. Die ILSVRC war ein wichtiger Treiber bei der Entwicklung vieler moderner Architekturen, und auf Seiten wie Papers with Code können Sie sehen, wie die heutigen Modelle bei verschiedenen Benchmarks abschneiden.

Anwendungen von Imagenet in der realen Welt

ImageNet wird hauptsächlich als Ressource für das Pre-Training von Modellen verwendet. Durch das Training eines Modells mit diesem riesigen Datensatz lernt es, eine Vielzahl visueller Merkmale zu erkennen. Dieses Wissen kann dann auf neue, spezifischere Aufgaben übertragen werden. Diese Technik ist als Transfer Learning bekannt.

  1. Medizinische Bildanalyse: Ein auf ImageNet vortrainiertes Modell, wie z. B. ein Ultralytics YOLO-Modell, kann auf einem viel kleineren, spezialisierten Datensatz medizinischer Scans feinabgestimmt werden, um bestimmte Erkrankungen wie Tumore zu erkennen. Das anfängliche Training auf ImageNet bietet eine solide Grundlage für das allgemeine visuelle Verständnis, was entscheidend ist, um eine hohe Genauigkeit bei medizinischen Bildanalyseaufgaben zu erzielen, bei denen beschriftete Daten rar sind. Dies ist eine wichtige Anwendung für KI im Gesundheitswesen.
  2. Einzelhandelsprodukterkennung: Im Einzelhandel können Modelle angepasst werden, um Tausende verschiedener Produkte in einem Regal für die automatisierte Bestandsverwaltung zu identifizieren. Anstatt von Grund auf neu zu trainieren, kann ein auf ImageNet vortrainiertes Modell schnell an die spezifischen Produkte eines Geschäfts angepasst werden. Dies reduziert den Bedarf an riesigen Mengen an benutzerdefinierten Trainingsdaten und beschleunigt die Modellbereitstellung. Viele leistungsstarke KI-Lösungen im Einzelhandel nutzen diesen Ansatz.

Imagenet vs. verwandte Konzepte

Es ist wichtig, ImageNet von anderen verwandten Begriffen und Datensätzen zu unterscheiden:

  • ImageNet vs. CV-Aufgaben: ImageNet selbst ist ein Datensatz – eine Sammlung von gelabelten Bildern. Es ist keine Aufgabe. Stattdessen wird es verwendet, um Modelle zu trainieren und zu bewerten, die Aufgaben wie Bildklassifizierung ausführen, bei der einem Bild ein einzelnes Label zugewiesen wird. Dies unterscheidet sich von der Objekterkennung, die das Lokalisieren von Objekten mit Begrenzungsrahmen beinhaltet, oder der Bildsegmentierung, die jedes Pixel in einem Bild klassifiziert.
  • ImageNet vs. COCO: Während ImageNet der Goldstandard für die Klassifizierung ist, eignen sich andere Computer-Vision-Datensätze besser für andere Aufgaben. Der COCO-Datensatz (Common Objects in Context) ist beispielsweise der bevorzugte Benchmark für Objekterkennung und Instanzsegmentierung. Dies liegt daran, dass COCO detailliertere Annotationen bietet, wie z. B. Begrenzungsrahmen und Segmentierungsmasken pro Pixel für mehrere Objekte in jedem Bild. Im Gegensatz dazu haben die meisten ImageNet-Bilder nur ein einzelnes Label auf Bildebene.

Modelle wie YOLO11 werden oft auf ImageNet für ihr Klassifizierungs-Backbone vortrainiert, bevor sie auf COCO für Erkennungsaufgaben trainiert werden. Dieser mehrstufige Trainingsprozess nutzt die Stärken beider Datensätze. Sie können auf unseren Modellvergleichsseiten sehen, wie verschiedene Modelle bei diesen Benchmarks abschneiden. Obwohl ImageNet einen großen Einfluss hat, ist es erwähnenswert, dass ImageNet Einschränkungen aufweist, darunter bekannte Verzerrungen in den Datensätzen, die aus einer KI-Ethik-Perspektive wichtig zu berücksichtigen sind.

Treten Sie der Ultralytics-Community bei

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert