Daten-Anmerkung
Was ist eine Datenbeschriftung? Erfahren Sie, wie die Kennzeichnung von Daten mit Bounding Boxes oder Polygonen für das Training präziser KI- und Computer-Vision-Modelle unerlässlich ist.
Unter Datenannotation versteht man den Prozess der Kennzeichnung von Rohdaten, damit Modelle des maschinellen Lernens (ML) diese verstehen und daraus lernen können. Dieser wichtige Schritt wandelt unstrukturierte Daten wie Bilder oder Videos in strukturierte Informationen um, die von Algorithmen interpretiert werden können. Im Kontext des überwachten Lernens dienen diese Anmerkungen als "Grundwahrheit" - die korrekten Antworten, die das Modell verwendet, um sich selbst zu trainieren. Die Qualität und Genauigkeit der Datenkommentare wirken sich direkt auf die Leistung und Zuverlässigkeit des daraus resultierenden Modells der künstlichen Intelligenz (KI) aus. Ohne präzise Anmerkungen können selbst die fortschrittlichsten Modelle keine Muster effektiv lernen.
Die Rolle von Kommentaren in der Computer Vision
In der Computer Vision (CV) ist die Kommentierung von Daten von grundlegender Bedeutung, um Modellen beizubringen, die Welt zu "sehen" und zu interpretieren. Dazu werden menschliche Annotatoren mit Hilfe spezieller Software eingesetzt, um interessante Objekte in visuellen Daten zu identifizieren und zu markieren. Es gibt verschiedene Arten von Kommentaren, die jeweils für unterschiedliche CV-Aufgaben geeignet sind:
- Bounding Box-Anmerkung: Dies ist die gängigste Form, die zur Objekterkennung verwendet wird. Annotatoren zeichnen rechteckige Kästen um einzelne Objekte und weisen ihnen eine Klassenbezeichnung zu (z. B. "Auto", "Person").
- Polygonale Segmentierung: Für Aufgaben, die eine höhere Präzision erfordern, wie z. B. die Segmentierung von Objekten, zeichnen die Kommentatoren die genauen Umrisse jedes Objekts nach. Dies ermöglicht dem Modell, die spezifische Form und die Grenzen eines Objekts zu verstehen, selbst wenn sich Objekte überschneiden.
- Semantische Segmentierung: Bei dieser Methode wird jedes einzelne Pixel eines Bildes einer bestimmten Kategorie zugeordnet (z. B. "Himmel", "Straße", "Gebäude"). Im Gegensatz zur Instanzsegmentierung wird dabei nicht zwischen verschiedenen Instanzen derselben Objektklasse unterschieden.
- Keypoint-Anmerkung: Bei dieser Technik, die für die Posenschätzung verwendet wird, werden bestimmte interessante Punkte (Keypoints) auf einem Objekt markiert, z. B. die Gelenke eines menschlichen Körpers oder die Ecken eines Gesichts.
- Klassifizierung: Die einfachste Form, bei der ein ganzes Bild mit einem einzigen Label versehen wird. Dies ist die Grundlage für Bildklassifizierungsaufgaben.
Die Wahl der Annotationsmethode hängt von den spezifischen Zielen des Lebenslaufprojekts ab, die im Leitfaden zur Festlegung der Projektziele beschrieben werden.
Anwendungen in der realen Welt
- Autonome Fahrzeuge: Selbstfahrende Autos stützen sich auf Modelle, die anhand umfangreicher kommentierter Daten trainiert wurden. Die Kommentatoren kennzeichnen alles, von Fußgängern und Radfahrern bis hin zu Verkehrsampeln, Fahrbahnmarkierungen und Straßenschildern in Millionen von Bildern und LiDAR-Punktwolken. Diese detaillierten Trainingsdaten ermöglichen es dem Wahrnehmungssystem des Fahrzeugs, seine Umgebung zu verstehen und sichere Fahrentscheidungen zu treffen. Datensätze wie Argoverse sind für die Entwicklung robuster KI-Lösungen im Automobilbereich von entscheidender Bedeutung.
- Medizinische Bildanalyse: In der KI für das Gesundheitswesen kommentieren Radiologen und medizinische Experten medizinische Scans wie MRTs, CTs und Röntgenaufnahmen, um Tumore, Läsionen, Frakturen oder andere Anomalien hervorzuheben. Diese kommentierten Datensätze, wie z. B. der öffentliche Hirntumordatensatz, werden verwendet, um Modelle wie Ultralytics YOLO zu trainieren, die bei der Frühdiagnose und Behandlungsplanung helfen können. Die Radiological Society of North America (RSNA) stellt mehrere solcher Datensätze für die Forschung zur Verfügung.
Datenanmerkung vs. verwandte Konzepte
Die Annotation von Daten wird oft zusammen mit anderen Datenaufbereitungstechniken diskutiert, aber sie dienen unterschiedlichen Zwecken.
- Datenbeschriftung vs. Datenetikettierung: Diese beiden Begriffe werden häufig synonym verwendet und beziehen sich auf denselben Kernprozess. In der Computer Vision wird "Annotation" oft bevorzugt, um komplexere Aufgaben wie das Zeichnen von Polygonen oder Keypoints zu beschreiben, während "Labeling" für einfachere Aufgaben wie die Klassifizierung verwendet werden kann. Für alle praktischen Zwecke sind sie jedoch synonym. Weitere Informationen finden Sie in unserer Erläuterung zur Datenbeschriftung in der Bildverarbeitung.
- Datenanmerkung vs. Datenerweiterung: Die Annotation ist der Prozess der Erstellung der ursprünglichen Grundwahrheitsbeschriftungen. Die Datenerweiterung hingegen ist eine Technik, die nach der Beschriftung eingesetzt wird, um den Datensatz künstlich zu vergrößern, indem modifizierte Versionen der beschrifteten Bilder erstellt werden (z. B. Drehen, Spiegeln oder Ändern der Helligkeit).
- Datenanmerkung vs. Datenbereinigung: Die Datenbereinigung umfasst die Korrektur von Fehlern, das Entfernen von Duplikaten und den Umgang mit fehlenden Werten innerhalb eines Datensatzes, um dessen Gesamtqualität sicherzustellen. Die Bereinigung kann vor der Annotation (z. B. Entfernen unscharfer Bilder) oder danach (z. B. Korrektur falscher Beschriftungen) erfolgen, unterscheidet sich aber von der eigentlichen Hinzufügung neuer Beschriftungen. Eine hohe Datenqualität ist für eine effektive Beschriftung unerlässlich.
Der Prozess der Annotation kann mit verschiedenen Tools verwaltet werden, von Open-Source-Optionen wie CVAT bis hin zu kommerziellen Plattformen wie Scale AI und Labelbox. Plattformen wie Ultralytics HUB bieten integrierte Lösungen für die Verwaltung von Datensätzen, das Trainieren von Modellen und die Rationalisierung des gesamten Arbeitsablaufs von der Datenerfassung und Annotation bis zur Bereitstellung.