Data Labeling
Lerne die Grundlagen der Datenkennzeichnung für maschinelles Lernen. Entdecke wichtige Typen wie Objekterkennung und wie du Arbeitsabläufe mit Ultralytics YOLO26 beschleunigst.
Die Datenkennzeichnung ist der grundlegende Prozess, bei dem Rohdaten – wie Bilder, Videoframes, Text oder Audio – identifiziert und mit informativen Tags oder Metadaten versehen werden, um Kontext bereitzustellen. Im Bereich des machine learning (ML) können Algorithmen die physikalische Welt nicht von sich aus verstehen; sie benötigen einen "Lehrer", der sie anleitet. Diese Anleitung erfolgt in Form von gekennzeichneten Datensätzen, die während des supervised learning verwendet werden. Die Labels dienen als ground truth und repräsentieren die korrekten Antworten, die das Modell vorhersagen soll. Ob du nun einen einfachen Klassifizierer oder eine komplexe Architektur wie Ultralytics YOLO26 trainierst: Die Genauigkeit, Konsistenz und Qualität dieser Labels sind die primären Bestimmungsfaktoren für den Erfolg eines Modells.
Link to this sectionDatenkennzeichnung vs. Datenannotation#
Obwohl die Begriffe in der Alltagssprache oft synonym verwendet werden, gibt es einen feinen Unterschied, der erwähnenswert ist. "Datenkennzeichnung" bezieht sich im Allgemeinen auf den breit gefassten Vorgang, einem Datenelement eine Kategorie oder ein Tag zuzuweisen (z. B. das Markieren einer E-Mail als "Spam"). Im Gegensatz dazu ist die data annotation oft spezifischer für computer vision (CV) und beinhaltet die präzise Abgrenzung von Objekten mittels bounding boxes, Polygonen oder keypoints. Innerhalb der meisten ML operations (MLOps) Workflows beschreiben jedoch beide Begriffe die Erstellung von hochwertigen training data.
Link to this sectionWichtige Arten in der Computer Vision#
Die Methode der Kennzeichnung ändert sich je nach Aufgabe, die das Modell ausführen muss. Zu den gängigen Arten gehören:
- Image Classification: Einem gesamten Bild ein einzelnes Label zuweisen, wie etwa die Identifizierung eines Wetterzustands als "bewölkt" oder "sonnig".
- Object Detection: Das Zeichnen von 2D bounding boxes um bestimmte Objekte, um dem Modell beizubringen, was das Objekt ist und wo es sich befindet.
- Instance Segmentation: Das Erstellen von pixelgenauen Masken oder polygons um Objekte, was für die Bestimmung präziser Formen und Grenzen unerlässlich ist.
- Pose Estimation: Das Markieren spezifischer keypoints an einem Subjekt, wie beispielsweise Skelettgelenken, um Bewegung oder Haltung zu analysieren.
Link to this sectionPraxisanwendungen#
Der Nutzen der Datenkennzeichnung erstreckt sich auf praktisch jede Branche, die KI einsetzt.
-
Autonome Fahrzeuge: Selbstfahrende Autos verlassen sich auf riesige Datensätze, in denen jedes Fahrzeug, jeder Fußgänger, jedes Verkehrsschild und jede Fahrbahnmarkierung akribisch gekennzeichnet ist. Diese gekennzeichneten Daten ermöglichen es dem Wahrnehmungssystem, sicher durch komplexe Umgebungen zu navigieren. Autonomous vehicle-Unternehmen investieren massiv in die Kennzeichnung auf Pixelebene, um die Einhaltung von Sicherheitsvorschriften zu gewährleisten.
-
Präzisionslandwirtschaft: In der modernen Landwirtschaft wird AI in agriculture eingesetzt, um Pflanzenkrankheiten zu erkennen oder Wachstumsstadien zu überwachen. Landwirte nutzen Modelle, die mit gekennzeichneten Bildern von "gesunden" versus "kranken" Blättern trainiert wurden, um die Behandlung zu automatisieren, den Chemikalieneinsatz zu reduzieren und den Ertrag zu steigern.
Link to this sectionDer Workflow der Kennzeichnung#
Die Erstellung eines gekennzeichneten Datensatzes ist oft der zeitaufwendigste Teil eines KI-Projekts. Der Prozess beinhaltet typischerweise einen "Human-in-the-Loop" (HITL)-Ansatz, bei dem menschliche Annotatoren die Labels überprüfen, um eine hohe Genauigkeit sicherzustellen. Moderne Workflows nutzen Tools wie die Ultralytics Platform, die das Datensatzmanagement vereinfacht und es Teams ermöglicht, bei Annotationen zusammenzuarbeiten. Fortgeschrittene Techniken wie active learning können ebenfalls eingesetzt werden, bei denen ein Modell die Daten vor-kennzeichnet und Menschen nur die Vorhersagen mit geringem Konfidenzwert korrigieren, was den Prozess erheblich beschleunigt.
Das folgende Beispiel zeigt, wie du ein vortrainiertes YOLO26-Modell verwendest, um automatisch Labels (Auto-Labeling) für ein neues Bild zu generieren, die anschließend von Menschen korrigiert werden können:
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")





