Erforschung der Datenbeschriftung für Computer-Vision-Projekte

Abirami Vina

4 Minuten lesen

2. September 2024

Lesen Sie unseren ausführlichen Bericht über die Datenbeschriftung bei Computer-Vision-Projekten und erfahren Sie, wie man visuelle Daten beschriftet und warum dies so wichtig ist.

Künstliche Intelligenz (KI) zielt darauf ab, Maschinen mit menschenähnlichen Fähigkeiten auszustatten, und einer der beliebtesten Wege, dies zu erreichen, ist das überwachte Lernen. Mit anderen Worten: Wenn man KI-Modellen durch das Zeigen von markierten Beispielen etwas beibringt, können sie aus Mustern lernen und Aufgaben besser bewältigen. Das ist dem menschlichen Lernen aus Erfahrung sehr ähnlich. Wie also werden diese markierten Beispiele erstellt?

Bei der Datenkommentierung geht es um die Kennzeichnung oder Markierung von Daten, damit Algorithmen für maschinelles Lernen sie besser verstehen können. In der Computer Vision bedeutet dies, dass Bilder oder Videos markiert werden, um Objekte, Aktionen oder Szenen genau zu erkennen und zu kategorisieren. Die Kennzeichnung von Daten ist von entscheidender Bedeutung, da der Erfolg eines KI-Modells stark von der Qualität der gekennzeichneten Daten abhängt, auf denen es trainiert wurde.

Studien zeigen, dass mehr als 80 % der Zeit in KI-Projekten für die Verwaltung von Daten aufgewendet wird, von der Erfassung und Aggregation bis hin zur Bereinigung und Kennzeichnung der Daten. Dies zeigt, wie wichtig die Datenkommentierung bei der Entwicklung von KI-Modellen ist. Die Verwendung qualitativ hochwertiger annotierter Daten ermöglicht es KI-Modellen, Aufgaben wie Gesichtserkennung und Objekterkennung mit größerer Genauigkeit und Zuverlässigkeit in realen Situationen auszuführen.

Warum Datenkommentare notwendig sind

Die Beschriftung von Daten ist die Grundlage für die Leistungsfähigkeit eines Computer-Vision-Modells. Beschriftete Daten sind die Basiswahrheit, die das Modell zum Lernen und für Vorhersagen verwendet. Grundwahrheitsdaten sind wichtig, weil sie die reale Welt darstellen, die das Modell zu verstehen versucht. Ohne diese zuverlässige Grundlage wäre das KI-Modell wie ein Schiff, das ohne Kompass navigiert. 

__wf_reserved_inherit
Abb. 1. Bodenwahrheit vs. Vorhersage.

Genaue Beschriftungen helfen diesen Modellen zu verstehen, was sie sehen, und führen zu einer besseren Entscheidungsfindung. Wenn die Daten schlecht beschriftet oder inkonsistent sind, wird das Modell Schwierigkeiten haben, korrekte Vorhersagen und Entscheidungen zu treffen, genau wie ein Schüler, der aus falschen Lehrbüchern lernt. Dank der beschrifteten Daten kann ein Modell Aufgaben wie Bildklassifizierung, Instanzsegmentierung und Posenschätzung von Objekten in Bildern und Videos erlernen. 

Beste Ressourcen für Datensätze

Bevor Sie einen brandneuen Datensatz erstellen und Bilder und Videos akribisch beschriften, sollten Sie prüfen, ob Sie bereits vorhandene Datensätze für Ihr Projekt verwenden können. Es gibt mehrere fantastische Open-Source-Repositories, in denen Sie kostenlos auf hochwertige Datensätze zugreifen können. Einige der beliebtesten sind:

  • ImageNet: Es wird häufig für das Training von Bildklassifizierungsmodellen verwendet.
  • COCO: Dieser Datensatz dient der Objekterkennung, Segmentierung und Bildbeschriftung.
  • PASCAL VOC: Es unterstützt Aufgaben der Objekterkennung und -segmentierung.
__wf_reserved_inherit
Abbildung 2. Beispiele für Daten aus dem COCO-Datensatz.

Bei der Auswahl eines Datensatzes ist es wichtig, Faktoren wie die Eignung für Ihr Projekt, den Umfang des Datensatzes, seine Vielfalt und die Qualität der Beschriftungen zu berücksichtigen. Überprüfen Sie auch die Lizenzbedingungen des Datensatzes, um rechtliche Konsequenzen zu vermeiden, und prüfen Sie, ob die Daten so formatiert sind, dass sie zu Ihrem Arbeitsablauf und Ihren Tools passen.

Die Erstellung eines benutzerdefinierten Datensatzes ist eine gute Option, wenn die vorhandenen Datensätze nicht ganz Ihren Anforderungen entsprechen. Sie können Bilder mit Hilfsmitteln wie Webcams, Drohnen oder Smartphones sammeln, je nachdem, was Ihr Projekt erfordert. Idealerweise sollte Ihr benutzerdefinierter Datensatz vielfältig, ausgewogen und wirklich repräsentativ für das Problem sein, das Sie zu lösen versuchen. Das kann bedeuten, dass Sie Bilder bei unterschiedlichen Lichtverhältnissen, aus verschiedenen Blickwinkeln und in verschiedenen Umgebungen aufnehmen.

Wenn Sie nur eine kleinere Anzahl von Bildern oder Videos sammeln können, ist die Datenerweiterung eine hilfreiche Technik. Dabei wird Ihr Datensatz erweitert, indem Transformationen wie Drehen, Spiegeln oder Farbanpassungen auf vorhandene Bilder angewendet werden. Dadurch wird Ihr Datensatz vergrößert und Ihr Modell wird robuster und kann besser mit Datenschwankungen umgehen. Durch die Verwendung einer Mischung aus Open-Source-Datensätzen, benutzerdefinierten Datensätzen und erweiterten Daten können Sie die Leistung Ihrer Computer-Vision-Modelle erheblich steigern.

Arten von Bildbeschriftungstechniken

Bevor Sie mit der Kommentierung von Bildern beginnen, sollten Sie sich mit den verschiedenen Arten von Kommentaren vertraut machen. Das hilft Ihnen bei der Auswahl der richtigen Art für Ihr Projekt. Im Folgenden sehen wir uns einige der wichtigsten Arten von Anmerkungen an. 

Begrenzungsrahmen

Bounding Boxes sind die gebräuchlichste Art der Beschriftung in der Computer Vision. Es handelt sich dabei um rechteckige Kästen, die zur Markierung der Position eines Objekts in einem Bild verwendet werden. Diese Boxen werden durch die Koordinaten ihrer Ecken definiert und helfen KI-Modellen bei der Identifizierung und Lokalisierung von Objekten. Bounding Boxes werden hauptsächlich zur Objekterkennung verwendet.

__wf_reserved_inherit
Abb. 3. Ein Beispiel für Bounding Boxes.

Segmentierungsmasken

Manchmal muss ein Objekt genauer erkannt werden als nur durch eine Bounding Box, die um das Objekt gezogen wird. Sie sind vielleicht an den Grenzen der Objekte in einem Bild interessiert. In diesem Fall können Sie mit Segmentierungsmasken komplexe Objekte umreißen. Segmentierungsmasken sind eine detailliertere Darstellung auf Pixelebene. 

Diese Masken können für die semantische Segmentierung und die Instanzsegmentierung verwendet werden. Bei der semantischen Segmentierung wird jedes Pixel in einem Bild entsprechend dem Objekt oder dem Bereich, den es repräsentiert, gekennzeichnet, z. B. Fußgänger, Auto, Straße oder Bürgersteig. Die Instanzsegmentierung geht jedoch einen Schritt weiter, indem sie jedes Objekt einzeln identifiziert und trennt, z. B. die Unterscheidung zwischen den einzelnen Autos in einem Bild, auch wenn sie alle vom gleichen Typ sind.

__wf_reserved_inherit
Abb. 4. Ein Beispiel für semantische Segmentierung (links) und Instanzsegmentierungsmasken (rechts).

3D-Quader

3D-Quader sind ähnlich wie Bounding Boxes. Das Besondere an ihnen ist, dass 3D-Quader Tiefeninformationen hinzufügen und eine 3D-Darstellung eines Objekts liefern. Diese zusätzlichen Informationen ermöglichen es Systemen, die Form, das Volumen und die Position von Objekten in einem 3D-Raum zu verstehen. 3D-Quader werden häufig in selbstfahrenden Autos verwendet, um die Entfernung von Objekten zum Fahrzeug zu messen.

__wf_reserved_inherit
Abb. 5. Ein Beispiel für 3D-Quader.

Schlüsselpunkte und Orientierungspunkte

Eine weitere interessante Art der Beschriftung sind Schlüsselpunkte, bei denen bestimmte Punkte wie Augen, Nasen oder Gelenke auf Objekten markiert werden. Landmarks geht noch einen Schritt weiter, indem diese Punkte miteinander verbunden werden, um die Struktur und Bewegung komplexerer Formen, wie Gesichter oder Körperhaltungen, zu erfassen. Diese Arten von Anmerkungen werden für Anwendungen wie Gesichtserkennung, Bewegungserfassung und Augmented Reality verwendet. Sie verbessern auch die Genauigkeit von KI-Modellen bei Aufgaben wie der Gestenerkennung oder der Analyse von Sportleistungen.

__wf_reserved_inherit
Abb. 6. Ein Beispiel für Key-Points.

Wie man Daten mit labelImg annotiert

Nachdem wir nun die verschiedenen Arten von Anmerkungen besprochen haben, wollen wir nun verstehen, wie Sie Bilder mit einem beliebten Tool, LabelImg, mit Anmerkungen versehen können. LabelImg ist ein Open-Source-Tool, das die Bildkommentierung vereinfacht und zur Erstellung von Datensätzen im YOLO-Format (You Only Look Once) verwendet werden kann. Es ist eine gute Wahl für Anfänger, die an kleinen Ultralytics YOLOv8-Projekten arbeiten.

Die Einrichtung von LabelImg ist sehr einfach. Stellen Sie zunächst sicher, dass Sie Python 3 auf Ihrem Computer installiert haben. Dann können Sie LabelImg mit einem schnellen Befehl installieren.

Sobald es installiert ist, können Sie das Tool mit dem Befehl starten:

LabelImg funktioniert auf mehreren Plattformen, darunter Windows, macOS und Linux. Sollten Sie während der Installation auf Probleme stoßen, finden Sie im offiziellen LabelImg-Repository eine detaillierte Anleitung.

__wf_reserved_inherit
Abb. 7. Verwendung von LabelImg für Bildkommentare.

Sobald Sie das Tool gestartet haben, folgen Sie diesen einfachen Schritten, um Ihre Bilder zu beschriften:

  • Richten Sie Ihre Klassen ein: Definieren Sie zunächst die Liste der Klassen (Kategorien), die Sie beschriften möchten, in einer Datei namens "predefined_classes.txt". Anhand dieser Datei kann die Software erkennen, welche Objekte Sie in Ihren Bildern beschriften werden.
  • Wechseln Sie zum YOLO-Format: Standardmäßig verwendet LabelImg das PASCAL VOC-Format, aber wenn Sie mit YOLO arbeiten, müssen Sie das Format wechseln. Klicken Sie einfach auf die Schaltfläche "PascalVOC" in der Symbolleiste, um zu YOLO zu wechseln.
  • Beginnen Sie mit der Kommentierung: Verwenden Sie die Optionen "Öffnen" oder "OpenDIR", um Ihre Bilder zu laden. Zeichnen Sie dann Begrenzungsrahmen um die Objekte, die Sie beschriften möchten, und weisen Sie die richtige Klassenbezeichnung zu. Nachdem Sie jedes Bild beschriftet haben, speichern Sie Ihre Arbeit. LabelImg erstellt eine Textdatei mit demselben Namen wie Ihr Bild, die die YOLO-Beschriftungen enthält.
  • Speichern und überprüfen: Die Anmerkungen werden in einer .txt-Datei im YOLO-Format gespeichert. Die Software speichert auch eine "classes.txt" -Datei, in der alle Ihre Klassennamen aufgeführt sind.

Effiziente Strategien zur Datenkennzeichnung

Um den Prozess der Datenbeschriftung reibungsloser zu gestalten, gibt es einige wichtige Strategien, die zu beachten sind. So sind zum Beispiel klare Leitlinien für die Beschriftung entscheidend. Ohne sie könnten verschiedene Kommentatoren eine Aufgabe unterschiedlich interpretieren. 

Angenommen, die Aufgabe besteht darin, Vögel in Bildern mit Bounding Boxes zu beschriften. Ein Annotator könnte den gesamten Vogel beschriften, ein anderer nur den Kopf oder die Flügel. Diese Art von Inkonsistenz kann das Modell beim Training verwirren. Indem Sie klare Definitionen bereitstellen, wie z. B. "Beschriften Sie den gesamten Vogel einschließlich Flügel und Schwanz", sowie Beispiele und Anweisungen für schwierige Fälle, können Sie sicherstellen, dass die Daten genau und einheitlich beschriftet werden.

Regelmäßige Qualitätskontrollen sind ebenfalls wichtig für die Aufrechterhaltung hoher Standards. Durch die Festlegung von Benchmarks und die Verwendung spezifischer Metriken zur Überprüfung der Arbeit können Sie die Daten genau halten und den Prozess durch kontinuierliches Feedback verfeinern. 

Datenbeschriftung in aller Kürze

Die Beschriftung von Daten ist ein einfaches Konzept, das einen erheblichen Einfluss auf Ihr Computer Vision Modell haben kann. Unabhängig davon, ob Sie Tools wie LabelImg zum Kommentieren von Bildern oder zum Trainieren von Modellen auf Open-Source-Datensätzen verwenden, ist das Verständnis der Datenbeschriftung entscheidend. Strategien zur Datenbeschriftung können helfen, den gesamten Prozess zu rationalisieren und effizienter zu gestalten. Wenn Sie sich die Zeit nehmen, Ihren Annotationsansatz zu verfeinern, kann dies zu besseren und zuverlässigeren KI-Ergebnissen führen.

Erforschen Sie weiter und erweitern Sie Ihre Fähigkeiten! Bleiben Sie mit unserer Community in Verbindung, um weiter über KI zu lernen! In unserem GitHub-Repository erfahren Sie, wie wir KI einsetzen, um innovative Lösungen in Branchen wie der Fertigung und dem Gesundheitswesen zu entwickeln. 🚀

Lassen Sie uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise in die Zukunft des maschinellen Lernens

Kostenloser Start
Link in die Zwischenablage kopiert