Entdecken Sie ImageNet, den bahnbrechenden Datensatz, der mit mehr als 14 Millionen Bildern den Fortschritt in der Computer Vision vorantreibt und die KI-Forschung, -Modelle und -Anwendungen unterstützt.
ImageNet ist ein umfangreicher, öffentlich zugänglicher Datensatz mit über 14 Millionen Bildern, die von Hand kommentiert wurden, um anzugeben, welche Objekte sie darstellen. Es ist nach der WordNet-Hierarchie organisiert und enthält mehr als 20.000 Kategorien, wobei eine typische Kategorie wie "Luftballon" oder "Erdbeere" aus mehreren hundert Bildern besteht. Diese umfangreiche und vielfältige Sammlung hat die Bereiche Computer Vision (CV) und Deep Learning (DL) entscheidend vorangebracht und dient als Standard für das Training und den Vergleich von Modellen.
Die Schaffung des ImageNet durch Forscher der Stanford University war ein entscheidender Moment für die künstliche Intelligenz (KI). Vor ImageNet waren die Datensätze oft zu klein, um komplexe neuronale Netze (NN) effektiv zu trainieren, was zu Problemen wie Overfitting führte. ImageNet bot die nötige Größe, um tiefe Modelle zu trainieren, und ebnete den Weg für die moderne KI-Revolution. Weitere Informationen finden Sie in der Originalfassung des ImageNet-Forschungspapiers.
Der Einfluss von ImageNet wurde durch die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) verstärkt, einen jährlichen Wettbewerb, der von 2010 bis 2017 stattfand. Dieser Wettbewerb wurde zu einem entscheidenden Maßstab für die Bewertung der Leistung von Computer-Vision-Algorithmen. Im Jahr 2012 errang ein Faltungsneuronales Netzwerk (CNN) namens AlexNet einen bahnbrechenden Sieg, der alle vorherigen Modelle deutlich übertraf. Dieser Erfolg demonstrierte die Leistungsfähigkeit von Deep Learning und GPU-Berechnungen und löste eine Welle von Innovationen in diesem Bereich aus. Das ILSVRC hat die Entwicklung vieler moderner Architekturen maßgeblich vorangetrieben, und auf Websites wie Papers with Code können Sie sehen, wie die heutigen Modelle bei verschiedenen Benchmarks abschneiden.
ImageNet dient in erster Linie als Ressource für das Vortraining von Modellen. Durch das Trainieren eines Modells auf diesem riesigen Datensatz lernt es, einen umfangreichen Satz visueller Merkmale zu erkennen. Dieses Wissen kann dann auf neue, spezifischere Aufgaben übertragen werden. Diese Technik ist als Transfer-Lernen bekannt.
Es ist wichtig, ImageNet von anderen verwandten Begriffen und Datensätzen abzugrenzen:
Modelle wie YOLO11 werden häufig zunächst auf ImageNet für ihre Klassifizierung trainiert, bevor sie auf COCO für Erkennungsaufgaben trainiert werden. Durch diesen mehrstufigen Trainingsprozess werden die Stärken beider Datensätze genutzt. Wie die verschiedenen Modelle bei diesen Benchmarks abschneiden, können Sie auf unseren Modellvergleichsseiten nachlesen. Obwohl ImageNet sehr einflussreich ist, ist es erwähnenswert, dass es Einschränkungen hat, einschließlich bekannter Verzerrungen des Datensatzes, die aus einer KI-Ethik-Perspektive zu berücksichtigen sind.