Erkundung der besten Datensätze für Computer Vision im Jahr 2025

Abirami Vina

5 Minuten lesen

21. Februar 2025

Werfen Sie mit uns einen genaueren Blick auf die besten Computer-Vision-Datensätze des Jahres 2025. Erfahren Sie, wie vielfältige und hochwertige Datensätze intelligentere KI-Lösungen ermöglichen.

Wussten Sie, dass Daten bei fast allem, was Sie täglich tun, eine Rolle spielen? Das Ansehen eines Videos, das Aufnehmen eines Fotos oder das Abrufen von Google Maps trägt zu dem ständigen Informationsfluss bei, der von über 75 Milliarden vernetzten Geräten erfasst wird. Diese Daten bilden die Grundlage der künstlichen Intelligenz (KI). Tatsächlich stützen sich fortschrittliche Computer-Vision-Modelle wie Ultralytics YOLO11 auf visuelle Daten, um Muster zu erkennen, Bilder zu interpretieren und der Welt um uns herum einen Sinn zu geben.

Interessanterweise ist der Wert von Daten nicht nur eine Frage der Menge. Vielmehr ist es wichtig, wie gut sie organisiert und aufbereitet sind. Ist ein Datensatz unordentlich oder unvollständig, kann dies zu Fehlern führen. Wenn die Datensätze jedoch sauber und vielfältig sind, helfen sie den Bildverarbeitungsmodellen bei der Erkennung von Objekten in einer Menschenmenge oder bei der Analyse komplexer Bilder. Hochwertige Datensätze machen den Unterschied aus.

In diesem Artikel werden wir die besten Computer-Vision-Datensätze des Jahres 2025 erkunden und sehen, wie sie dazu beitragen, genauere und effizientere Computer-Vision-Modelle zu erstellen. Legen wir los!

Was sind Computer-Vision-Datensätze?

Ein Computer-Vision-Datensatz ist eine Sammlung von Bildern oder Videos, mit deren Hilfe Computer-Vision-Systeme lernen, visuelle Informationen zu verstehen und zu erkennen. Diese Datensätze sind mit Beschriftungen oder Anmerkungen versehen, die den Modellen helfen, Objekte, Personen, Szenen und Muster in den Daten zu erkennen.

Sie können verwendet werden, um Computer-Vision-Modelle zu trainieren, damit sie Aufgaben wie die Identifizierung von Gesichtern, die Erkennung von Objekten oder die Analyse von Szenen verbessern können. Je besser der Datensatz - gut organisiert, vielfältig und genau - desto besser ist die Leistung des KI-Modells, was zu intelligenteren und nützlicheren Technologien für den Alltag führt.

Wie man einen Computer-Vision-Datensatz erstellt

Die Erstellung eines Computer-Vision-Datensatzes ist wie die Vorbereitung von Studienunterlagen, die jemandem beibringen sollen, wie man die Welt sieht und versteht. Am Anfang steht das Sammeln von Bildern und Videos, die zu der spezifischen Anwendung passen, die Sie entwickeln. 

Ein idealer Datensatz umfasst verschiedene Beispiele der interessierenden Objekte, die aus unterschiedlichen Blickwinkeln, unter verschiedenen Beleuchtungsbedingungen und vor verschiedenen Hintergründen und Umgebungen aufgenommen wurden. Diese Vielfalt stellt sicher, dass das Computer-Vision-Modell lernt, Muster genau zu erkennen und in realen Szenarien zuverlässig zu funktionieren.

__wf_reserved_inherit
Abb. 1. Aufbau des perfekten Vision-Datensatzes. Bild vom Autor.

Nach dem Sammeln relevanter Bilder und Videos ist der nächste Schritt die Kennzeichnung der Daten. Bei diesem Prozess werden den Daten Tags, Anmerkungen oder Beschreibungen hinzugefügt, damit die KI den Inhalt der einzelnen Bilder oder Videos verstehen kann. 

Beschriftungen können Objektnamen, Orte, Grenzen oder andere relevante Details enthalten, die dem Modell helfen, visuelle Informationen genau zu erkennen und zu interpretieren. Die Datenbeschriftung verwandelt eine einfache Sammlung von Bildern in einen strukturierten Datensatz, der zum Trainieren eines Computer-Vision-Modells verwendet werden kann.

Modelltraining erfordert hochwertige Daten

Vielleicht fragen Sie sich, was die Qualität eines Datensatzes ausmacht. Hier spielen viele Faktoren eine Rolle, wie z. B. genaue Beschriftung, Vielfalt und Konsistenz. Wenn beispielsweise mehrere Kommentatoren einen Objekterkennungsdatensatz beschriften, um Katzenohren zu identifizieren, könnte ein Kommentator sie als Teil des Kopfes bezeichnen, während ein anderer sie separat als Ohren bezeichnet. Diese Inkonsistenz kann das Modell verwirren und seine Fähigkeit, korrekt zu lernen, beeinträchtigen.

Hier ein kurzer Überblick über die Qualitäten eines idealen Computer-Vision-Datensatzes:

  • Klare Beschriftungen: Jedes Bild wird mit einheitlichen und präzisen Beschriftungen versehen.
  • Vielfältige Daten: Der Datensatz enthält verschiedene Objekte, Hintergründe, Lichtverhältnisse und Blickwinkel, damit das Modell in verschiedenen Situationen gut funktioniert.
  • Hochauflösende Bilder: Scharfe, detaillierte Bilder erleichtern dem Modell das Lernen und Erkennen von Merkmalen.

Ultralytics unterstützt verschiedene Datensätze

Ultralytics YOLO-Modelle, wie YOLO11, sind für die Arbeit mit Datensätzen in einem bestimmten YOLO-Dateiformat ausgelegt. Es ist zwar einfach, Ihre eigenen Daten in dieses Format zu konvertieren, aber wir bieten auch eine problemlose Option für diejenigen, die sofort mit dem Experimentieren beginnen möchten. 

Das Ultralytics-Python-Paket unterstützt eine breite Palette von Computer-Vision-Datensätzen, so dass Sie ohne zusätzliche Einstellungen in Projekte mit Aufgaben wie Objekterkennung, Instanzsegmentierung oder Posenschätzung einsteigen können.  

Benutzer können einfach auf gebrauchsfertige Datensätze wie COCO, DOTA-v2.0, Open Images V7 und ImageNet zugreifen, indem sie den Namen des Datensatzes als einen der Parameter in der Trainingsfunktion angeben. Wenn Sie dies tun, wird der Datensatz automatisch heruntergeladen und vorkonfiguriert, sodass Sie sich auf die Erstellung und Verfeinerung Ihrer Modelle konzentrieren können.

Die 5 wichtigsten Computer-Vision-Datensätze im Jahr 2025

Fortschritte in der künstlichen Intelligenz beruhen auf vielfältigen, umfangreichen Datensätzen, die Innovationen vorantreiben und Durchbrüche ermöglichen. Werfen wir einen Blick auf einige der wichtigsten Datensätze, die von Ultralytics unterstützt werden und die Computer-Vision-Modelle beeinflussen.

ImageNet-Datensatz 

ImageNet, 2007 von Fei-Fei Li und ihrem Team an der Princeton University entwickelt und 2009 vorgestellt, ist ein großer Datensatz mit über 14 Millionen beschrifteten Bildern. Er wird häufig verwendet, um Systeme zur Erkennung und Kategorisierung verschiedener Objekte zu trainieren. Aufgrund seines strukturierten Aufbaus ist er besonders nützlich, um Modelle für die genaue Klassifizierung von Bildern zu trainieren. Der Datensatz ist zwar gut dokumentiert, konzentriert sich aber in erster Linie auf die Bildklassifizierung und enthält keine detaillierten Anmerkungen für Aufgaben wie die Objekterkennung. 

Hier ein Blick auf einige der wichtigsten Stärken von ImageNet:

  • Vielfältigkeit: Mit Bildern aus über 20.000 Kategorien bietet ImageNet einen riesigen und vielfältigen Datensatz, der das Modelltraining und die Generalisierung verbessert.
  • Strukturierte Organisation: Die Bilder werden mithilfe der WordNet-Hierarchie sorgfältig kategorisiert, was eine effiziente Datenabfrage und ein systematisches Modelltraining ermöglicht.
  • Umfassende Dokumentation: Umfangreiche Forschung und jahrelange Studien machen ImageNet sowohl für Anfänger als auch für Experten zugänglich und bieten wertvolle Einblicke und Anleitungen für Computer-Vision-Projekte.

Doch wie jeder Datensatz hat auch dieser seine Grenzen. Hier sind einige der Herausforderungen, die es zu berücksichtigen gilt:

  • Rechnerische Anforderungen: Seine enorme Größe kann kleinere Teams mit begrenzten Computerressourcen vor Herausforderungen stellen.
  • Mangel an zeitlichen Daten: Da es nur statische Bilder enthält, erfüllt es möglicherweise nicht die Anforderungen von Anwendungen, die Video- oder zeitbasierte Daten erfordern.
  • Veraltete Bilder: Einige Bilder im Datensatz sind älter und spiegeln möglicherweise nicht die aktuellen Objekte, Stile oder Umgebungen wider, was die Relevanz für moderne Anwendungen verringern kann.

DOTA-v2.0-Datensatz

Der DOTA-v2.0-Datensatz, wobei DOTA für Dataset for Object Detection in Aerial Images steht, ist eine umfangreiche Sammlung von Luftbildern, die speziell für die Erkennung von Objekten mit orientierten Bounding Boxen (OBB) erstellt wurde. Bei der OBB-Erkennung werden gedrehte Bounding Boxes verwendet, um die tatsächliche Ausrichtung der Objekte im Bild genauer zu erfassen. Diese Methode eignet sich besonders gut für Luftbilder, auf denen Objekte oft in verschiedenen Winkeln erscheinen, was zu einer präziseren Lokalisierung und einer insgesamt besseren Erkennung führt.

Dieser Datensatz besteht aus über 11.000 Bildern und mehr als 1,7 Millionen orientierten Bounding Boxes in 18 Objektkategorien. Die Bilder haben eine Größe von 800×800 bis 20.000×20.000 Pixel und umfassen Objekte wie Flugzeuge, Schiffe und Gebäude. 

__wf_reserved_inherit
Abb. 2. Beispiele von Bildern und Anmerkungen aus dem DOTA-v2.0-Datensatz. Bild vom Autor.

Aufgrund seiner detaillierten Beschriftungen ist DOTA-v2.0 eine beliebte Wahl für Fernerkundungs- und Luftüberwachungsprojekte geworden. Hier sind einige der wichtigsten Funktionen von DOTA-v2.0:

  • Vielfältige Objektkategorien: Es deckt viele verschiedene Objekttypen ab, wie z. B. Fahrzeuge, Häfen und Lagertanks, so dass die Modelle verschiedene Objekte aus der realen Welt kennenlernen.
  • Hochwertige Beschriftungen: Erfahrene Kommentatoren haben präzise orientierte Begrenzungsrahmen (Bounding Boxes) erstellt, die die Formen und Richtungen der Objekte deutlich zeigen.
  • Multiskalige Bilder: Der Datensatz enthält Bilder unterschiedlicher Größe, so dass die Modelle lernen können, wie sie Objekte sowohl im kleinen als auch im großen Maßstab erkennen können.

DOTA-v2 hat zwar viele Stärken, aber es gibt auch einige Einschränkungen, die man beachten sollte:

  • Zusätzliche Download-Schritte: Aufgrund der Art und Weise, wie der DOTA-Datensatz gepflegt wird, erfordert DOTA-v2.0 einen zusätzlichen Einrichtungsschritt. Sie müssen zunächst die DOTA-v1.0 Bilder herunterladen und dann die zusätzlichen Bilder und aktualisierten Anmerkungen für DOTA-v2.0 hinzufügen, um den Datensatz zu vervollständigen.
  • Komplexe Beschriftungen: Orientierte Bounding Boxes können zusätzlichen Aufwand beim Modelltraining erfordern.
  • Begrenzter Anwendungsbereich: DOTA-v2 ist für Luftbilder konzipiert, was es für allgemeine Aufgaben der Objekterkennung außerhalb dieses Bereichs weniger nützlich macht.

Roboflow 100-Datensatz 

Der Roboflow 100 (RF100)-Datensatz wurde von Roboflow mit Unterstützung von Intel erstellt. Er kann verwendet werden, um zu testen und zu bewerten, wie gut Modelle zur Objekterkennung funktionieren. Dieser Benchmark-Datensatz umfasst 100 verschiedene Datensätze, die aus über 90.000 öffentlichen Datensätzen ausgewählt wurden. Er enthält mehr als 224.000 Bilder und 800 Objektklassen aus Bereichen wie Gesundheitswesen, Luftaufnahmen und Spiele. 

Hier sind einige der wichtigsten Vorteile des RF100:

  • Breite Abdeckung von Bereichen: Es umfasst Datensätze aus sieben Bereichen, wie z. B. medizinische Bildgebung, Luftaufnahmen und Unterwasserforschung.
  • Ermutigt zur Modellverbesserung: Die Variabilität und die domänenspezifischen Herausforderungen in RF100 zeigen Lücken in aktuellen Modellen auf und treiben die Forschung in Richtung anpassungsfähigerer und robusterer Lösungen für die Objekterkennung voran.
  • Einheitliches Bildformat: Alle Bilder sind auf 640x640 Pixel verkleinert. So können die Benutzer Modelle trainieren, ohne die Bildgrößen anpassen zu müssen.

Trotz seiner Stärken hat der RF100 auch einige Nachteile, die es zu beachten gilt:

  • Begrenzt in Bezug auf die Aufgaben: Der RF100 ist für die Objekterkennung konzipiert und kann daher nicht für Aufgaben wie Segmentierung oder Klassifizierung eingesetzt werden.
  • Benchmark-zentrierter Fokus: Der RF100 ist in erster Linie als Benchmarking-Tool und nicht zum Trainieren von Modellen für reale Anwendungen konzipiert, so dass sich seine Ergebnisse möglicherweise nicht vollständig auf praktische Einsatzszenarien übertragen lassen.
  • Variabilität der Beschriftungen: Da der RF100 Datensätze aus dem Crowd-Sourcing zusammenfasst, kann es zu Unstimmigkeiten bei der Qualität der Annotationen und der Beschriftungspraxis kommen, was sich auf die Modellevaluation und die Feinabstimmung auswirken kann.

COCO-Datensatz (Common objects in context)

Der COCO-Datensatz ist einer der am weitesten verbreiteten Computer-Vision-Datensätze und bietet über 330.000 Bilder mit detaillierten Bildkommentaren. Er wurde für die Objekterkennung, Segmentierung und Bildbeschriftung entwickelt und ist damit eine wertvolle Ressource für viele Projekte. Die detaillierten Beschriftungen, einschließlich Bounding Boxes und Segmentierungsmasken, helfen Systemen beim Erlernen der präzisen Analyse von Bildern.

Dieser Datensatz ist für seine Flexibilität bekannt und eignet sich für verschiedene Aufgaben, von einfachen bis hin zu komplexen Projekten. Er hat sich zu einem Standard im Bereich der Bildverarbeitung entwickelt und wird häufig bei Wettbewerben zur Bewertung der Modellleistung verwendet.

Einige seiner Stärken sind:

  • Vielfältige und realistische Daten: Der Datensatz enthält Bilder aus realen Szenarien mit mehreren Objekten, Verdeckungen und unterschiedlichen Lichtverhältnissen.
  • Starke Akzeptanz in der Gemeinschaft und in der Forschung: Der COCO-Datensatz wird in wichtigen Wettbewerben für maschinelles Lernen und in der Forschung verwendet und verfügt über eine umfangreiche Dokumentation, vortrainierte Modelle und aktive Unterstützung durch die Community.
  • Reichhaltige und detaillierte Anmerkungen: Der COCO-Datensatz bietet sehr detaillierte Anmerkungen, einschließlich Objektsegmentierung, Schlüsselpunkte und Beschriftungen, was ihn ideal für Projekte macht, die ein präzises visuelles Verständnis erfordern.

Auch hier gibt es einige einschränkende Faktoren, die Sie beachten sollten:

  • Hohe Anforderungen an die Rechenleistung: Aufgrund seiner Größe und Komplexität kann das Trainieren von Modellen auf COCO erhebliche Rechenressourcen erfordern, was es für Teams mit begrenzter Hardware zu einer Herausforderung macht.
  • Unausgewogenheit der Daten: Einige Objektkategorien haben deutlich mehr Bilder als andere, was zu Verzerrungen beim Modelltraining führen kann.
  • Komplexe Anmerkungsstruktur: Die detaillierten Annotationen des Datensatzes sind zwar wertvoll, können aber für Anfänger oder kleinere Teams, denen es an Erfahrung in der Arbeit mit strukturierten Vision-KI-Datensätzen fehlt, überwältigend sein.

Bilder öffnen V7-Datensatz

Open Images V7 ist ein umfangreicher, von Google kuratierter Open-Source-Datensatz, der über 9 Millionen Bilder mit Anmerkungen zu 600 Objektkategorien enthält. Er umfasst eine Vielzahl von Annotationstypen und ist ideal für die Bewältigung komplexer Computer-Vision-Aufgaben. Sein Umfang und seine Tiefe bieten eine umfassende Ressource für das Training und Testen von Computer-Vision-Modellen.

__wf_reserved_inherit
Abb. 3. Ein Blick auf den Open Images V7-Datensatz. Bild vom Autor.

Außerdem bietet der Open Images V7-Datensatz aufgrund seiner Beliebtheit in der Forschung eine Fülle von Ressourcen und Beispielen, aus denen die Nutzer lernen können. Allerdings kann der enorme Umfang des Datensatzes das Herunterladen und Verarbeiten zeitaufwändig machen, insbesondere für kleinere Teams. Ein weiteres Problem ist, dass einige Anmerkungen inkonsistent sein können, was einen zusätzlichen Aufwand für die Bereinigung der Daten erfordert, und die Integration ist nicht immer nahtlos, was bedeutet, dass zusätzliche Vorbereitungen erforderlich sein können. 

Die Auswahl des richtigen Datensatzes 

Die Auswahl des richtigen Datensatzes ist ein wichtiger Faktor für den Erfolg Ihres Computer-Vision-Projekts. Die beste Wahl hängt von Ihrer spezifischen Aufgabe ab - eine gute Übereinstimmung hilft Ihrem Modell, die richtigen Fähigkeiten zu erlernen. Außerdem sollte es sich leicht in Ihre Tools integrieren lassen, damit Sie sich mehr auf die Entwicklung Ihres Modells und weniger auf die Fehlersuche konzentrieren können.

__wf_reserved_inherit
Abbildung 4. Faktoren für die Auswahl des richtigen Datensatzes. Bild vom Autor.

Die wichtigsten Erkenntnisse

Qualitativ hochwertige Datensätze sind das Rückgrat eines jeden Computer-Vision-Modells, da sie den Systemen dabei helfen, Bilder genau zu interpretieren. Vielfältige und gut kommentierte Datensätze sind besonders wichtig, da sie die Modelle in die Lage versetzen, in realen Szenarien zuverlässig zu funktionieren und Fehler zu reduzieren, die durch begrenzte oder qualitativ schlechte Daten verursacht werden.

Ultralytics vereinfacht den Zugriff auf und die Arbeit mit Computer-Vision-Datensätzen und macht es einfacher, die richtigen Daten für Ihr Projekt zu finden. Die Auswahl des richtigen Datensatzes ist ein entscheidender Schritt beim Aufbau eines leistungsstarken Modells, das zu präziseren und aussagekräftigeren Ergebnissen führt.

Werden Sie Mitglied unserer Community und erkunden Sie unser GitHub-Repository, um mehr über KI zu erfahren. Entdecken Sie Fortschritte wie Computer Vision für das Gesundheitswesen und KI in selbstfahrenden Autos auf unseren Lösungsseiten. Informieren Sie sich über unsere Lizenzierungsoptionen und machen Sie noch heute den ersten Schritt zum Einstieg in die Computer Vision!

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert