Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Cookie-Einstellungen
Indem Sie auf „Alle Cookies akzeptieren“ klicken, stimmen Sie der Speicherung von Cookies auf Ihrem Gerät zu, um die Website-Navigation zu verbessern, die Website-Nutzung zu analysieren und unsere Marketingbemühungen zu unterstützen. Mehr Infos
Begleiten Sie uns auf einem genaueren Blick auf die besten Datensätze für Computer Vision des Jahres 2025. Erfahren Sie, wie vielfältige und qualitativ hochwertige Datensätze intelligentere Vision AI-Lösungen vorantreiben.
Wussten Sie, dass Daten bei fast allem, was Sie täglich tun, eine Rolle spielen? Das Anschauen eines Videos, das Aufnehmen eines Fotos oder das Abrufen von Google Maps trägt zu dem ständigen Informationsfluss bei, der von über 75 Milliarden verbundenen Geräten erfasst wird. Diese Daten bilden die Grundlage der künstlichen Intelligenz (KI). Tatsächlich sind fortschrittliche Computer-Vision-Modelle wie Ultralytics YOLO11 stützen sich auf visuelle Daten, um Muster zu erkennen, Bilder zu interpretieren und der Welt um uns herum einen Sinn zu geben.
Interessanterweise geht es beim Wert von Daten nicht nur um die Quantität. Es ist wichtiger, wie gut sie organisiert und aufbereitet sind. Wenn ein Datensatz unordentlich oder unvollständig ist, kann dies zu Fehlern führen. Wenn Datensätze jedoch sauber und vielfältig sind, helfen sie Computer-Vision-Modellen, bessere Leistungen zu erbringen, sei es bei der Erkennung von Objekten in einer Menschenmenge oder bei der Analyse komplexer visueller Darstellungen. Hochwertige Datensätze machen den Unterschied.
In diesem Artikel werden wir die besten Datensätze für Computer Vision des Jahres 2025 untersuchen und sehen, wie sie zum Aufbau genauerer und effizienterer Computer-Vision-Modelle beitragen. Los geht's!
Was sind Datensätze für Computer Vision?
Ein Computer-Vision-Datensatz ist eine Sammlung von Bildern oder Videos, die Computer-Vision-Systemen helfen, visuelle Informationen zu verstehen und zu erkennen. Diese Datensätze werden mit Beschriftungen oder Annotationen geliefert, die Modellen helfen, Objekte, Personen, Szenen und Muster innerhalb der Daten zu erkennen.
Sie können verwendet werden, um Computer-Vision-Modelle zu trainieren und ihnen zu helfen, Aufgaben wie das Erkennen von Gesichtern, das Erkennen von Objekten oder das Analysieren von Szenen zu verbessern. Je besser der Datensatz ist – gut organisiert, vielfältig und genau –, desto besser ist die Leistung des Vision-AI-Modells, was zu intelligenteren und nützlicheren Technologien im Alltag führt.
Wie man einen Datensatz für Computer Vision erstellt
Das Erstellen eines Datensatzes für Computer Vision ist wie das Vorbereiten von Lernnotizen, um jemandem beizubringen, wie man die Welt sieht und versteht. Alles beginnt mit dem Sammeln von Bildern und Videos, die zu der spezifischen Anwendung passen, die Sie entwickeln.
Ein idealer Datensatz enthält vielfältige Beispiele der interessierenden Objekte, die aus verschiedenen Blickwinkeln, unter verschiedenen Lichtverhältnissen und in verschiedenen Hintergründen und Umgebungen aufgenommen wurden. Diese Vielfalt stellt sicher, dass das Computer-Vision-Modell lernt, Muster genau zu erkennen, und in realen Szenarien zuverlässig funktioniert.
Abb. 1. Erstellung des perfekten Vision-Datensatzes. Bild vom Autor.
Nach dem Sammeln relevanter Bilder und Videos ist der nächste Schritt die Datenbeschriftung. Dieser Prozess umfasst das Hinzufügen von Tags, Anmerkungen oder Beschreibungen zu den Daten, damit die KI verstehen kann, was jedes Bild oder Video enthält.
Beschriftungen können Objektnamen, Standorte, Grenzen oder andere relevante Details enthalten, die helfen, das Modell zu trainieren, visuelle Informationen genau zu erkennen und zu interpretieren. Die Datenbeschriftung verwandelt eine einfache Sammlung von Bildern in einen strukturierten Datensatz, der verwendet werden kann, um ein Computer-Vision-Modell zu trainieren.
Für das Modelltraining werden qualitativ hochwertige Daten benötigt.
Sie fragen sich vielleicht, was einen Datensatz qualitativ hochwertig macht. Es gibt viele Faktoren, wie z. B. eine genaue Kennzeichnung, Diversität und Konsistenz. Wenn beispielsweise mehrere Annotatoren einen Object Detection-Datensatz kennzeichnen, um Katzenohren zu identifizieren, könnte einer sie als Teil des Kopfes kennzeichnen, während ein anderer sie separat als Ohren kennzeichnet. Diese Inkonsistenz kann das Modell verwirren und seine Fähigkeit, korrekt zu lernen, beeinträchtigen.
Hier ist ein kurzer Überblick über die Eigenschaften eines idealen Datensatzes für Computer Vision:
Klare Beschriftungen: Jedes Bild ist präzise mit konsistenten und genauen Beschriftungen versehen.
Diverse Daten: Der Datensatz umfasst verschiedene Objekte, Hintergründe, Lichtverhältnisse und Winkel, damit das Modell in unterschiedlichen Situationen gut funktioniert.
Hochauflösende Bilder: Scharfe, detaillierte Bilder erleichtern es dem Modell, Merkmale zu lernen und zu erkennen.
Ultralytics unterstützt verschiedene Datensätze
Ultralytics YOLO , wie YOLO11, sind für die Arbeit mit Datensätzen in einem bestimmten YOLO ausgelegt. Es ist zwar einfach, Ihre eigenen Daten in dieses Format zu konvertieren, aber wir bieten auch eine problemlose Option für diejenigen, die sofort mit dem Experimentieren beginnen möchten.
Das Python unterstützt eine breite Palette von Computer-Vision-Datensätzen, so dass Sie ohne zusätzliche Einstellungen in Projekte mit Aufgaben wie Objekterkennung, Instanzsegmentierung oder Posenschätzung einsteigen können.
Benutzer können ganz einfach auf gebrauchsfertige Datensätze wie COCO, DOTA-v2.0, Open Images V7 und ImageNet zugreifen, indem sie den Namen des Datensatzes als einen der Parameter in der Trainingsfunktion angeben. Wenn Sie dies tun, wird der Datensatz automatisch heruntergeladen und vorkonfiguriert, sodass Sie sich auf die Erstellung und Verfeinerung Ihrer Modelle konzentrieren können.
Die Top 5 Computer-Vision-Datensätze im Jahr 2025
Fortschritte in der künstlichen Intelligenz beruhen auf vielfältigen, umfangreichen Datensätzen, die Innovationen vorantreiben und Durchbrüche ermöglichen. Werfen wir einen Blick auf einige der wichtigsten Datensätze, die von Ultralytics unterstützt werden und die Computer-Vision-Modelle beeinflussen.
ImageNet
ImageNetImageNet, 2007 von Fei-Fei Li und ihrem Team an der Princeton University erstellt und 2009 vorgestellt, ist ein großer Datensatz mit über 14 Millionen beschrifteten Bildern. Er wird häufig verwendet, um Systeme zur Erkennung und Kategorisierung verschiedener Objekte zu trainieren. Aufgrund seines strukturierten Aufbaus ist er besonders nützlich, um Modelle für die genaue classify Bildern zu trainieren. Der Datensatz ist zwar gut dokumentiert, konzentriert sich aber in erster Linie auf die Bildklassifizierung und enthält keine detaillierten Anmerkungen für Aufgaben wie die Objekterkennung.
Hier ein Blick auf einige der wichtigsten Stärken von ImageNet:
Vielfältigkeit: Mit Bildern aus über 20.000 Kategorien bietet ImageNet einen riesigen und vielfältigen Datensatz, der das Modelltraining und die Generalisierung verbessert.
Strukturierte Organisation: Die Bilder sind sorgfältig nach der WordNet-Hierarchie kategorisiert, was einen effizienten Datenabruf und ein systematisches Modelltraining ermöglicht.
Umfassende Dokumentation: Umfangreiche Forschung und jahrelange Studien machen ImageNet sowohl für Anfänger als auch für Experten zugänglich und bieten wertvolle Einblicke und Anleitungen für Computer-Vision-Projekte.
Wie jeder Datensatz hat aber auch dieser seine Grenzen. Hier sind einige der Herausforderungen, die es zu berücksichtigen gilt:
Hoher Rechenaufwand: Seine enorme Größe kann kleinere Teams mit begrenzten Rechenressourcen vor Herausforderungen stellen.
Fehlende Zeitreihendaten: Da es nur statische Bilder enthält, erfüllt es möglicherweise nicht die Anforderungen von Anwendungen, die Video- oder zeitbasierte Daten benötigen.
Veraltete Bilder: Einige Bilder im Datensatz sind älter und spiegeln möglicherweise nicht aktuelle Objekte, Stile oder Umgebungen wider, was potenziell die Relevanz für moderne Anwendungen verringert.
DOTA-v2.0 Datensatz
Der DOTA-v2.0 Datensatz, wobei DOTA für Dataset for Object Detection in Aerial Images steht, ist eine umfangreiche Sammlung von Luftaufnahmen, die speziell für die Objekterkennung mit orientierten Bounding Boxes (OBB) erstellt wurde. Bei der OBB-Erkennung werden gedrehte Begrenzungsrahmen verwendet, um sie genauer an der tatsächlichen Ausrichtung von Objekten im Bild auszurichten. Diese Methode eignet sich besonders gut für Luftaufnahmen, bei denen Objekte oft in verschiedenen Winkeln erscheinen, was zu einer präziseren Lokalisierung und einer insgesamt besseren Erkennung führt.
Dieser Datensatz besteht aus über 11.000 Bildern und mehr als 1,7 Millionen orientierten Begrenzungsrahmen in 18 Objektkategorien. Die Bilder reichen von 800×800 bis 20.000×20.000 Pixel und enthalten Objekte wie Flugzeuge, Schiffe und Gebäude.
Abb. 2. Beispiele für Bilder und Anmerkungen aus dem DOTA-v2.0-Datensatz. Bild vom Autor.
Aufgrund seiner detaillierten Anmerkungen ist DOTA-v2.0 zu einer beliebten Wahl für Fernerkundungs- und Luftüberwachungsprojekte geworden. Hier sind einige der wichtigsten Merkmale von DOTA-v2.0:
Vielfältige Objektkategorien: Es deckt viele verschiedene Objekttypen ab, wie z. B. Fahrzeuge, Häfen und Lagertanks, wodurch Modelle verschiedenen realen Objekten ausgesetzt werden.
Hochwertige Anmerkungen: Experten haben präzise ausgerichtete Begrenzungsrahmen bereitgestellt, die Objektformen und -richtungen klar darstellen.
Multiskalige Bilder: Der Datensatz enthält Bilder unterschiedlicher Größe, so dass die Modelle lernen können, wie sie Objekte sowohl im kleinen als auch im großen Maßstab detect .
Obwohl DOTA-v2 viele Stärken hat, sollten Benutzer die folgenden Einschränkungen beachten:
Zusätzliche Download-Schritte: Aufgrund der Art und Weise, wie der DOTA-Datensatz gepflegt wird, erfordert DOTA-v2.0 einen zusätzlichen Einrichtungsschritt. Sie müssen zuerst die DOTA-v1.0-Bilder herunterladen und dann die zusätzlichen Bilder und aktualisierten Annotationen für DOTA-v2.0 hinzufügen, um den Datensatz zu vervollständigen.
Komplexe Annotationen: Orientierte Bounding Boxes erfordern möglicherweise zusätzlichen Aufwand bei dem Modelltraining.
Begrenzter Anwendungsbereich: DOTA-v2 ist für Luftaufnahmen konzipiert, was es für allgemeine Objekterkennungsaufgaben außerhalb dieses Bereichs weniger nützlich macht.
Roboflow 100-Datensatz
Der Roboflow 100 (RF100)-Datensatz wurde von Roboflow mit Unterstützung von Intel erstellt. Er kann verwendet werden, um zu testen und zu bewerten, wie gut Modelle zur Objekterkennung funktionieren. Dieser Benchmark-Datensatz umfasst 100 verschiedene Datensätze, die aus über 90.000 öffentlichen Datensätzen ausgewählt wurden. Er enthält mehr als 224.000 Bilder und 800 Objektklassen aus Bereichen wie Gesundheitswesen, Luftaufnahmen und Spiele.
Hier sind einige der wichtigsten Vorteile der Verwendung von RF100:
Breite Abdeckung von Anwendungsbereichen: Er umfasst Datensätze aus sieben Bereichen, wie z. B. medizinische Bildgebung, Luftaufnahmen und Unterwassererkundung.
Fördert die Modellverbesserung: Die Variabilität und die bereichsspezifischen Herausforderungen in RF100 decken Lücken in den aktuellen Modellen auf und treiben die Forschung hin zu anpassungsfähigeren und robusteren Objekterkennungslösungen voran.
Konsistentes Bildformat: Alle Bilder werden auf 640x640 Pixel skaliert. Dies hilft Benutzern, Modelle zu trainieren, ohne die Bildgrößen anpassen zu müssen.
Trotz seiner Stärken weist RF100 auch bestimmte Nachteile auf, die man beachten sollte:
Begrenzt in Bezug auf Aufgaben: RF100 ist für die Objekterkennung konzipiert und kann daher keine Aufgaben wie Segmentierung oder Klassifizierung bewältigen.
Benchmark-zentrierter Fokus: RF100 ist in erster Linie als ein Benchmark-Tool konzipiert und nicht für das Trainieren von Modellen für reale Anwendungen, so dass seine Ergebnisse möglicherweise nicht vollständig auf praktische Einsatzszenarien übertragbar sind.
Variabilität der Annotationen: Da RF100 aus Crowd-Sourcing-Datensätzen aggregiert wird, kann es zu Inkonsistenzen in der Qualität der Annotationen und den Kennzeichnungspraktiken kommen, was sich auf die Modellevaluierung und das Fine-Tuning auswirken kann.
COCO (Common objects in context)
Der COCO ist einer der am weitesten verbreiteten Computer-Vision-Datensätze und bietet über 330.000 Bilder mit detaillierten Bildkommentaren. Er wurde für die Objekterkennung, Segmentierung und Bildbeschriftung entwickelt und ist damit eine wertvolle Ressource für viele Projekte. Die detaillierten Beschriftungen, einschließlich Bounding Boxes und Segmentierungsmasken, helfen Systemen beim Erlernen der präzisen Analyse von Bildern.
Dieser Datensatz ist für seine Flexibilität bekannt und eignet sich für verschiedene Aufgaben, von einfachen bis hin zu komplexen Projekten. Er hat sich zu einem Standard im Bereich Vision AI entwickelt und wird häufig in Herausforderungen und Wettbewerben zur Bewertung der Modellleistung eingesetzt.
Einige seiner Stärken sind:
Vielfältige und realistische Daten: Der Datensatz enthält Bilder aus realen Szenarien mit mehreren Objekten, Verdeckungen und unterschiedlichen Lichtverhältnissen.
Starke Akzeptanz in der Gemeinschaft und in der Forschung: Der COCO wird in wichtigen Wettbewerben für maschinelles Lernen und in der Forschung verwendet und verfügt über eine umfangreiche Dokumentation, vortrainierte Modelle und aktive Unterstützung durch die Community.
Reichhaltige und detaillierte Anmerkungen: Der COCO bietet sehr detaillierte Anmerkungen, einschließlich Objektsegmentierung, Schlüsselpunkte und Beschriftungen, was ihn ideal für Projekte macht, die ein präzises visuelles Verständnis erfordern.
Hier sind einige einschränkende Faktoren, die Sie ebenfalls beachten sollten:
Hohe Anforderungen an die Rechenleistung: Aufgrund seiner Größe und Komplexität kann das Trainieren von Modellen auf COCO erhebliche Rechenressourcen erfordern, was es für Teams mit begrenzter Hardware zu einer Herausforderung macht.
Datenungleichgewicht: Einige Objektkategorien haben deutlich mehr Bilder als andere, was zu Verzerrungen beim Modelltraining führen kann.
Komplexe Annotationsstruktur: Die detaillierten Annotationen des Datensatzes können zwar wertvoll sein, aber Anfänger oder kleinere Teams, denen die Erfahrung im Umgang mit strukturierten Vision-AI-Datensätzen fehlt, überfordern.
Open Images V7 Datensatz
Open Images V7 ist ein umfangreicher, von Google kuratierter Open-Source-Datensatz, der über 9 Millionen Bilder mit Anmerkungen zu 600 Objektkategorien enthält. Er umfasst eine Vielzahl von Annotationstypen und ist ideal für die Bewältigung komplexer Computer-Vision-Aufgaben. Sein Umfang und seine Tiefe bieten eine umfassende Ressource für das Training und Testen von Computer-Vision-Modellen.
Abb. 3. Ein Einblick in den Open Images V7 Datensatz. Bild vom Autor.
Darüber hinaus bietet die Popularität des Open Images V7-Datensatzes in der Forschung zahlreiche Ressourcen und Beispiele, von denen Benutzer lernen können. Seine enorme Größe kann jedoch das Herunterladen und die Verarbeitung zeitaufwändig machen, insbesondere für kleinere Teams. Ein weiteres Problem ist, dass einige Annotationen inkonsistent sein können, was zusätzlichen Aufwand für die Bereinigung der Daten erfordert, und die Integration ist nicht immer nahtlos, was bedeutet, dass zusätzliche Vorbereitungen erforderlich sein können.
Die Wahl des richtigen Datensatzes
Die Auswahl des richtigen Datensatzes ist ein wichtiger Bestandteil für den Erfolg Ihres Computer-Vision-Projekts. Die beste Wahl hängt von Ihrer spezifischen Aufgabe ab – eine gute Übereinstimmung hilft Ihrem Modell, die richtigen Fähigkeiten zu erlernen. Er sollte sich auch problemlos in Ihre Tools integrieren lassen, sodass Sie sich mehr auf die Entwicklung Ihres Modells und weniger auf die Fehlersuche konzentrieren können.
Abb. 4. Faktoren für die Auswahl des richtigen Datensatzes. Bild vom Autor.
Wesentliche Erkenntnisse
Hochwertige Datensätze sind das Rückgrat jedes Computer-Vision-Modells und helfen Systemen, Bilder präzise zu interpretieren. Vielfältige und gut annotierte Datensätze sind besonders wichtig, da sie es Modellen ermöglichen, in realen Szenarien zuverlässig zu arbeiten und Fehler zu reduzieren, die durch begrenzte oder qualitativ schlechte Daten verursacht werden.
Ultralytics vereinfacht den Zugriff auf und die Arbeit mit Computer-Vision-Datensätzen und macht es einfacher, die richtigen Daten für Ihr Projekt zu finden. Die Auswahl des richtigen Datensatzes ist ein entscheidender Schritt beim Aufbau eines leistungsstarken Modells, das zu präziseren und aussagekräftigeren Ergebnissen führt.