Entdecken Sie ImageNet, den bahnbrechenden Datensatz, der mit über 14 Millionen Bildern die Fortschritte im Bereich Computer Vision vorantreibt und KI-Forschung, Modelle und Anwendungen unterstützt.
ImageNet ist ein umfangreicher, öffentlich zugänglicher Datensatz mit über 14 Millionen Bildern, die manuell annotiert wurden, um die abgebildeten Objekte zu kennzeichnen. Organisiert nach der WordNet-Hierarchie, enthält er mehr als 20.000 Kategorien, wobei eine typische Kategorie, wie z. B. "Ballon" oder "Erdbeere", aus mehreren hundert Bildern besteht. Diese riesige und vielfältige Sammlung hat maßgeblich zur Weiterentwicklung der Bereiche Computer Vision (CV) und Deep Learning (DL) beigetragen und dient als Standard für das Training und Benchmarking von Modellen.
Die Erstellung von ImageNet durch Forscher der Stanford University war ein entscheidender Moment für die künstliche Intelligenz (KI). Vor ImageNet waren Datensätze oft zu klein, um komplexe neuronale Netze (NN) effektiv zu trainieren, was zu Problemen wie Overfitting führte. ImageNet stellte die Skala bereit, die zum Trainieren tiefer Modelle erforderlich war, und ebnete den Weg für die moderne KI-Revolution. Sie können mehr erfahren, indem Sie das ursprüngliche ImageNet-Forschungspapier lesen.
Der Einfluss von ImageNet wurde durch die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) verstärkt, einem jährlichen Wettbewerb, der von 2010 bis 2017 stattfand. Dieser Wettbewerb wurde zu einem entscheidenden Benchmark für die Bewertung der Leistung von Algorithmen für maschinelles Sehen. Im Jahr 2012 erzielte ein Convolutional Neural Network (CNN) namens AlexNet einen bahnbrechenden Sieg und übertraf alle bisherigen Modelle deutlich. Dieser Erfolg demonstrierte die Leistungsfähigkeit von Deep Learning und GPU-Berechnungen und löste eine Innovationswelle in diesem Bereich aus. Die ILSVRC war ein wichtiger Treiber bei der Entwicklung vieler moderner Architekturen, und auf Seiten wie Papers with Code können Sie sehen, wie die heutigen Modelle bei verschiedenen Benchmarks abschneiden.
ImageNet wird hauptsächlich als Ressource für das Pre-Training von Modellen verwendet. Durch das Training eines Modells mit diesem riesigen Datensatz lernt es, eine Vielzahl visueller Merkmale zu erkennen. Dieses Wissen kann dann auf neue, spezifischere Aufgaben übertragen werden. Diese Technik ist als Transfer Learning bekannt.
Es ist wichtig, ImageNet von anderen verwandten Begriffen und Datensätzen zu unterscheiden:
Modelle wie YOLO11 werden oft auf ImageNet für ihr Klassifizierungs-Backbone vortrainiert, bevor sie auf COCO für Erkennungsaufgaben trainiert werden. Dieser mehrstufige Trainingsprozess nutzt die Stärken beider Datensätze. Sie können auf unseren Modellvergleichsseiten sehen, wie verschiedene Modelle bei diesen Benchmarks abschneiden. Obwohl ImageNet einen großen Einfluss hat, ist es erwähnenswert, dass ImageNet Einschränkungen aufweist, darunter bekannte Verzerrungen in den Datensätzen, die aus einer KI-Ethik-Perspektive wichtig zu berücksichtigen sind.