Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024

Erkundung der besten Datensätze für Computer Vision im Jahr 2025

Abirami Vina

5 Min. Lesezeit

21. Februar 2025

Begleiten Sie uns auf einem genaueren Blick auf die besten Datensätze für Computer Vision des Jahres 2025. Erfahren Sie, wie vielfältige und qualitativ hochwertige Datensätze intelligentere Vision AI-Lösungen vorantreiben.

Wussten Sie, dass Daten fast alles beeinflussen, was Sie täglich tun? Das Ansehen eines Videos, das Aufnehmen eines Fotos oder das Überprüfen von Google Maps trägt zum ständigen Informationsfluss bei, der von über 75 Milliarden verbundenen Geräten erfasst wird. Diese Daten bilden die Grundlage für künstliche Intelligenz (KI). Tatsächlich sind fortschrittliche Computer-Vision-Modelle wie Ultralytics YOLO11 auf visuelle Daten angewiesen, um Muster zu erkennen, Bilder zu interpretieren und die Welt um uns herum zu verstehen.

Interessanterweise geht es beim Wert von Daten nicht nur um die Quantität. Es ist wichtiger, wie gut sie organisiert und aufbereitet sind. Wenn ein Datensatz unordentlich oder unvollständig ist, kann dies zu Fehlern führen. Wenn Datensätze jedoch sauber und vielfältig sind, helfen sie Computer-Vision-Modellen, bessere Leistungen zu erbringen, sei es bei der Erkennung von Objekten in einer Menschenmenge oder bei der Analyse komplexer visueller Darstellungen. Hochwertige Datensätze machen den Unterschied.

In diesem Artikel werden wir die besten Datensätze für Computer Vision des Jahres 2025 untersuchen und sehen, wie sie zum Aufbau genauerer und effizienterer Computer-Vision-Modelle beitragen. Los geht's!

Was sind Datensätze für Computer Vision?

Ein Computer-Vision-Datensatz ist eine Sammlung von Bildern oder Videos, die Computer-Vision-Systemen helfen, visuelle Informationen zu verstehen und zu erkennen. Diese Datensätze werden mit Beschriftungen oder Annotationen geliefert, die Modellen helfen, Objekte, Personen, Szenen und Muster innerhalb der Daten zu erkennen.

Sie können verwendet werden, um Computer-Vision-Modelle zu trainieren und ihnen zu helfen, Aufgaben wie das Erkennen von Gesichtern, das Erkennen von Objekten oder das Analysieren von Szenen zu verbessern. Je besser der Datensatz ist – gut organisiert, vielfältig und genau –, desto besser ist die Leistung des Vision-AI-Modells, was zu intelligenteren und nützlicheren Technologien im Alltag führt.

Wie man einen Datensatz für Computer Vision erstellt

Das Erstellen eines Datensatzes für Computer Vision ist wie das Vorbereiten von Lernnotizen, um jemandem beizubringen, wie man die Welt sieht und versteht. Alles beginnt mit dem Sammeln von Bildern und Videos, die zu der spezifischen Anwendung passen, die Sie entwickeln. 

Ein idealer Datensatz enthält vielfältige Beispiele der interessierenden Objekte, die aus verschiedenen Blickwinkeln, unter verschiedenen Lichtverhältnissen und in verschiedenen Hintergründen und Umgebungen aufgenommen wurden. Diese Vielfalt stellt sicher, dass das Computer-Vision-Modell lernt, Muster genau zu erkennen, und in realen Szenarien zuverlässig funktioniert.

__wf_reserved_inherit
Abb. 1. Erstellung des perfekten Vision-Datensatzes. Bild vom Autor.

Nach dem Sammeln relevanter Bilder und Videos ist der nächste Schritt die Datenbeschriftung. Dieser Prozess umfasst das Hinzufügen von Tags, Anmerkungen oder Beschreibungen zu den Daten, damit die KI verstehen kann, was jedes Bild oder Video enthält. 

Beschriftungen können Objektnamen, Standorte, Grenzen oder andere relevante Details enthalten, die helfen, das Modell zu trainieren, visuelle Informationen genau zu erkennen und zu interpretieren. Die Datenbeschriftung verwandelt eine einfache Sammlung von Bildern in einen strukturierten Datensatz, der verwendet werden kann, um ein Computer-Vision-Modell zu trainieren.

Für das Modelltraining werden qualitativ hochwertige Daten benötigt.

Sie fragen sich vielleicht, was einen Datensatz qualitativ hochwertig macht. Es gibt viele Faktoren, wie z. B. eine genaue Kennzeichnung, Diversität und Konsistenz. Wenn beispielsweise mehrere Annotatoren einen Object Detection-Datensatz kennzeichnen, um Katzenohren zu identifizieren, könnte einer sie als Teil des Kopfes kennzeichnen, während ein anderer sie separat als Ohren kennzeichnet. Diese Inkonsistenz kann das Modell verwirren und seine Fähigkeit, korrekt zu lernen, beeinträchtigen.

Hier ist ein kurzer Überblick über die Eigenschaften eines idealen Datensatzes für Computer Vision:

  • Klare Beschriftungen: Jedes Bild ist präzise mit konsistenten und genauen Beschriftungen versehen.
  • Diverse Daten: Der Datensatz umfasst verschiedene Objekte, Hintergründe, Lichtverhältnisse und Winkel, damit das Modell in unterschiedlichen Situationen gut funktioniert.
  • Hochauflösende Bilder: Scharfe, detaillierte Bilder erleichtern es dem Modell, Merkmale zu lernen und zu erkennen.

Ultralytics unterstützt verschiedene Datensätze.

Ultralytics YOLO-Modelle, wie YOLOv8, sind so konzipiert, dass sie mit Datensätzen in einem bestimmten YOLO-Dateiformat arbeiten. Es ist zwar einfach, Ihre eigenen Daten in dieses Format zu konvertieren, aber wir bieten auch eine problemlose Option für diejenigen, die sofort mit dem Experimentieren beginnen möchten. 

Das Ultralytics Python-Paket unterstützt eine breite Palette von Computer-Vision-Datensätzen, sodass Sie ohne zusätzliche Einrichtung in Projekte mit Aufgaben wie Objekterkennung, Instanzsegmentierung oder Pose-Schätzung eintauchen können.  

Benutzer können einfach auf gebrauchsfertige Datensätze wie COCO, DOTA-v2.0, Open Images V7 und ImageNet zugreifen, indem sie den Datensatznamen als einen der Parameter in der Trainingsfunktion angeben. Wenn Sie dies tun, wird der Datensatz automatisch heruntergeladen und vorkonfiguriert, sodass Sie sich auf den Aufbau und die Verfeinerung Ihrer Modelle konzentrieren können.

Die Top 5 Computer-Vision-Datensätze im Jahr 2025

Fortschritte im Bereich Vision AI basieren auf vielfältigen, umfangreichen Datensätzen, die Innovationen vorantreiben und Durchbrüche ermöglichen. Werfen wir einen Blick auf einige der wichtigsten Datensätze, die von Ultralytics unterstützt werden und die Computer-Vision-Modelle beeinflussen.

ImageNet-Datensatz 

ImageNet, erstellt von Fei-Fei Li und ihrem Team an der Princeton University im Jahr 2007 und eingeführt im Jahr 2009, ist ein großer Datensatz mit über 14 Millionen beschrifteten Bildern. Er wird häufig verwendet, um Systeme zum Erkennen und Kategorisieren verschiedener Objekte zu trainieren. Sein strukturierter Aufbau macht ihn besonders nützlich, um Modellen die genaue Klassifizierung von Bildern beizubringen. Obwohl er gut dokumentiert ist, konzentriert er sich hauptsächlich auf die Bildklassifizierung und verfügt nicht über detaillierte Anmerkungen für Aufgaben wie die Objekterkennung. 

Hier ist ein Blick auf einige der wichtigsten Stärken von ImageNet:

  • Diversität: Mit Bildern aus über 20.000 Kategorien bietet ImageNet einen riesigen und vielfältigen Datensatz, der das Modelltraining und die Generalisierung verbessert.
  • Strukturierte Organisation: Die Bilder sind sorgfältig nach der WordNet-Hierarchie kategorisiert, was einen effizienten Datenabruf und ein systematisches Modelltraining ermöglicht.
  • Umfassende Dokumentation: Umfangreiche Forschung und jahrelange Studien machen ImageNet sowohl für Anfänger als auch für Experten zugänglich und bieten wertvolle Einblicke und Anleitungen für Computer-Vision-Projekte.

Wie jeder Datensatz hat aber auch dieser seine Grenzen. Hier sind einige der Herausforderungen, die es zu berücksichtigen gilt:

  • Hoher Rechenaufwand: Seine enorme Größe kann kleinere Teams mit begrenzten Rechenressourcen vor Herausforderungen stellen.
  • Fehlende Zeitreihendaten: Da es nur statische Bilder enthält, erfüllt es möglicherweise nicht die Anforderungen von Anwendungen, die Video- oder zeitbasierte Daten benötigen.
  • Veraltete Bilder: Einige Bilder im Datensatz sind älter und spiegeln möglicherweise nicht aktuelle Objekte, Stile oder Umgebungen wider, was potenziell die Relevanz für moderne Anwendungen verringert.

DOTA-v2.0 Datensatz

Der DOTA-v2.0 Datensatz, wobei DOTA für Dataset for Object Detection in Aerial Images steht, ist eine umfangreiche Sammlung von Luftaufnahmen, die speziell für die Objekterkennung mit orientierten Bounding Boxes (OBB) erstellt wurde. Bei der OBB-Erkennung werden gedrehte Begrenzungsrahmen verwendet, um sie genauer an der tatsächlichen Ausrichtung von Objekten im Bild auszurichten. Diese Methode eignet sich besonders gut für Luftaufnahmen, bei denen Objekte oft in verschiedenen Winkeln erscheinen, was zu einer präziseren Lokalisierung und einer insgesamt besseren Erkennung führt.

Dieser Datensatz besteht aus über 11.000 Bildern und mehr als 1,7 Millionen orientierten Begrenzungsrahmen in 18 Objektkategorien. Die Bilder reichen von 800×800 bis 20.000×20.000 Pixel und enthalten Objekte wie Flugzeuge, Schiffe und Gebäude. 

__wf_reserved_inherit
Abb. 2. Beispiele für Bilder und Anmerkungen aus dem DOTA-v2.0-Datensatz. Bild vom Autor.

Aufgrund seiner detaillierten Anmerkungen ist DOTA-v2.0 zu einer beliebten Wahl für Fernerkundungs- und Luftüberwachungsprojekte geworden. Hier sind einige der wichtigsten Merkmale von DOTA-v2.0:

  • Vielfältige Objektkategorien: Es deckt viele verschiedene Objekttypen ab, wie z. B. Fahrzeuge, Häfen und Lagertanks, wodurch Modelle verschiedenen realen Objekten ausgesetzt werden.
  • Hochwertige Anmerkungen: Experten haben präzise ausgerichtete Begrenzungsrahmen bereitgestellt, die Objektformen und -richtungen klar darstellen.
  • Multiskalenbilder: Der Datensatz enthält Bilder unterschiedlicher Größe, die den Modellen helfen zu lernen, wie man Objekte in kleinen und großen Maßstäben erkennt.

Obwohl DOTA-v2 viele Stärken hat, sollten Benutzer die folgenden Einschränkungen beachten:

  • Zusätzliche Download-Schritte: Aufgrund der Art und Weise, wie der DOTA-Datensatz gepflegt wird, erfordert DOTA-v2.0 einen zusätzlichen Einrichtungsschritt. Sie müssen zuerst die DOTA-v1.0-Bilder herunterladen und dann die zusätzlichen Bilder und aktualisierten Annotationen für DOTA-v2.0 hinzufügen, um den Datensatz zu vervollständigen.
  • Komplexe Annotationen: Orientierte Bounding Boxes erfordern möglicherweise zusätzlichen Aufwand bei dem Modelltraining.
  • Begrenzter Anwendungsbereich: DOTA-v2 ist für Luftaufnahmen konzipiert, was es für allgemeine Objekterkennungsaufgaben außerhalb dieses Bereichs weniger nützlich macht.

Roboflow 100 Datensatz 

Der Roboflow 100 (RF100) Datensatz wurde von Roboflow mit Unterstützung von Intel erstellt. Er kann verwendet werden, um zu testen und zu bewerten, wie gut Objekterkennungsmodelle funktionieren. Dieser Benchmark-Datensatz umfasst 100 verschiedene Datensätze, die aus über 90.000 öffentlichen Datensätzen ausgewählt wurden. Er enthält mehr als 224.000 Bilder und 800 Objektklassen aus Bereichen wie dem Gesundheitswesen, Luftaufnahmen und Gaming. 

Hier sind einige der wichtigsten Vorteile der Verwendung von RF100:

  • Breite Abdeckung von Anwendungsbereichen: Er umfasst Datensätze aus sieben Bereichen, wie z. B. medizinische Bildgebung, Luftaufnahmen und Unterwassererkundung. 
  • Fördert die Modellverbesserung: Die Variabilität und die bereichsspezifischen Herausforderungen in RF100 decken Lücken in den aktuellen Modellen auf und treiben die Forschung hin zu anpassungsfähigeren und robusteren Objekterkennungslösungen voran.
  • Konsistentes Bildformat: Alle Bilder werden auf 640x640 Pixel skaliert. Dies hilft Benutzern, Modelle zu trainieren, ohne die Bildgrößen anpassen zu müssen.

Trotz seiner Stärken weist RF100 auch bestimmte Nachteile auf, die man beachten sollte:

  • Begrenzt in Bezug auf Aufgaben: RF100 ist für die Objekterkennung konzipiert und kann daher keine Aufgaben wie Segmentierung oder Klassifizierung bewältigen.
  • Benchmark-zentrierter Fokus: RF100 ist in erster Linie als ein Benchmark-Tool konzipiert und nicht für das Trainieren von Modellen für reale Anwendungen, so dass seine Ergebnisse möglicherweise nicht vollständig auf praktische Einsatzszenarien übertragbar sind.
  • Variabilität der Annotationen: Da RF100 aus Crowd-Sourcing-Datensätzen aggregiert wird, kann es zu Inkonsistenzen in der Qualität der Annotationen und den Kennzeichnungspraktiken kommen, was sich auf die Modellevaluierung und das Fine-Tuning auswirken kann.

COCO (Common Objects in Context) Datensatz

Der COCO-Datensatz ist einer der am weitesten verbreiteten Datensätze für Computer Vision und bietet über 330.000 Bilder mit detaillierten Bildannotationen. Er ist für Objekterkennung, Segmentierung und Bildunterschriftung konzipiert und somit eine wertvolle Ressource für viele Projekte. Seine detaillierten Beschriftungen, einschließlich Begrenzungsrahmen und Segmentierungsmasken, helfen Systemen, Bilder präzise zu analysieren.

Dieser Datensatz ist für seine Flexibilität bekannt und eignet sich für verschiedene Aufgaben, von einfachen bis hin zu komplexen Projekten. Er hat sich zu einem Standard im Bereich Vision AI entwickelt und wird häufig in Herausforderungen und Wettbewerben zur Bewertung der Modellleistung eingesetzt.

Einige seiner Stärken sind:

  • Vielfältige und realistische Daten: Der Datensatz enthält Bilder aus realen Szenarien mit mehreren Objekten, Verdeckungen und unterschiedlichen Lichtverhältnissen.
  • Starke Akzeptanz in Community und Forschung: Der COCO-Datensatz wird in großen Wettbewerben für maschinelles Lernen und in der Forschung verwendet und verfügt über eine umfangreiche Dokumentation, vortrainierte Modelle und eine aktive Community-Unterstützung.
  • Umfangreiche und detaillierte Annotationen: Der COCO-Datensatz bietet sehr detaillierte Annotationen, einschließlich Objektsegmentierung, Schlüsselpunkte und Beschriftungen, was ihn ideal für Projekte macht, die ein präzises visuelles Verständnis erfordern.

Hier sind einige einschränkende Faktoren, die Sie ebenfalls beachten sollten:

  • Hohe Rechenanforderungen: Aufgrund seiner Größe und Komplexität kann das Training von Modellen auf COCO erhebliche Rechenressourcen erfordern, was es für Teams mit begrenzter Hardware schwierig macht.
  • Datenungleichgewicht: Einige Objektkategorien haben deutlich mehr Bilder als andere, was zu Verzerrungen beim Modelltraining führen kann.
  • Komplexe Annotationsstruktur: Die detaillierten Annotationen des Datensatzes können zwar wertvoll sein, aber Anfänger oder kleinere Teams, denen die Erfahrung im Umgang mit strukturierten Vision-AI-Datensätzen fehlt, überfordern.

Open Images V7 Datensatz

Open Images V7 ist ein umfangreicher Open-Source-Datensatz, der von Google kuratiert wurde und über 9 Millionen Bilder mit Annotationen für 600 Objektkategorien enthält. Er umfasst eine Vielzahl von Annotationstypen und ist ideal für die Bearbeitung komplexer Computer-Vision-Aufgaben. Sein Umfang und seine Tiefe bieten eine umfassende Ressource für das Training und Testen von Computer-Vision-Modellen.

__wf_reserved_inherit
Abb. 3. Ein Einblick in den Open Images V7 Datensatz. Bild vom Autor.

Darüber hinaus bietet die Popularität des Open Images V7-Datensatzes in der Forschung zahlreiche Ressourcen und Beispiele, von denen Benutzer lernen können. Seine enorme Größe kann jedoch das Herunterladen und die Verarbeitung zeitaufwändig machen, insbesondere für kleinere Teams. Ein weiteres Problem ist, dass einige Annotationen inkonsistent sein können, was zusätzlichen Aufwand für die Bereinigung der Daten erfordert, und die Integration ist nicht immer nahtlos, was bedeutet, dass zusätzliche Vorbereitungen erforderlich sein können. 

Die Wahl des richtigen Datensatzes 

Die Auswahl des richtigen Datensatzes ist ein wichtiger Bestandteil für den Erfolg Ihres Computer-Vision-Projekts. Die beste Wahl hängt von Ihrer spezifischen Aufgabe ab – eine gute Übereinstimmung hilft Ihrem Modell, die richtigen Fähigkeiten zu erlernen. Er sollte sich auch problemlos in Ihre Tools integrieren lassen, sodass Sie sich mehr auf die Entwicklung Ihres Modells und weniger auf die Fehlersuche konzentrieren können.

__wf_reserved_inherit
Abb. 4. Faktoren für die Auswahl des richtigen Datensatzes. Bild vom Autor.

Wesentliche Erkenntnisse

Hochwertige Datensätze sind das Rückgrat jedes Computer-Vision-Modells und helfen Systemen, Bilder präzise zu interpretieren. Vielfältige und gut annotierte Datensätze sind besonders wichtig, da sie es Modellen ermöglichen, in realen Szenarien zuverlässig zu arbeiten und Fehler zu reduzieren, die durch begrenzte oder qualitativ schlechte Daten verursacht werden.

Ultralytics vereinfacht den Zugriff auf und die Arbeit mit Computer-Vision-Datensätzen und erleichtert so das Auffinden der richtigen Daten für Ihr Projekt. Die Wahl des richtigen Datensatzes ist ein entscheidender Schritt beim Aufbau eines leistungsstarken Modells, was zu präziseren und wirkungsvolleren Ergebnissen führt.

Treten Sie unserer Community bei und erkunden Sie unser GitHub-Repository, um mehr über KI zu erfahren. Entdecken Sie Fortschritte wie Computer Vision im Gesundheitswesen und KI in selbstfahrenden Autos auf unseren Lösungsseiten. Sehen Sie sich unsere Lizenzoptionen an und machen Sie den ersten Schritt, um noch heute mit Computer Vision zu beginnen!

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert