Training Data

Lerne, wie Trainingsdaten KI-Modelle antreiben. Erforsche Beschaffung, Annotation und wie man Ultralytics YOLO26 für überlegene Genauigkeit bei Computer-Vision-Aufgaben trainiert.

Trainingsdaten sind der initiale Datensatz, der verwendet wird, um einem Machine-Learning-Modell beizubringen, Muster zu erkennen, Vorhersagen zu treffen oder spezifische Aufgaben auszuführen. Sie fungieren als grundlegendes Lehrbuch für KI-Systeme und liefern die Ground-Truth-Daten, die der Algorithmus analysiert, um seine internen Parameter anzupassen. Im Kontext des überwachten Lernens (Supervised Learning) bestehen Trainingsdaten aus Eingabestichproben, die mit entsprechenden Ausgabelabels gepaart sind, wodurch das Modell die Beziehung zwischen beiden erlernen kann. Die Qualität, Quantität und Vielfalt dieser Daten beeinflussen direkt die spätere Genauigkeit des Modells sowie seine Fähigkeit, auf neue, unbekannte Informationen zu generalisieren.

Link to this sectionDie Rolle von Trainingsdaten in der KI#

Die Hauptfunktion von Trainingsdaten besteht darin, den Fehler zwischen den Vorhersagen des Modells und den tatsächlichen Ergebnissen zu minimieren. Während des Modelltrainingsprozesses verarbeitet der Algorithmus die Daten iterativ und identifiziert Merkmale – wie Kanten in einem Bild oder Schlüsselwörter in einem Satz –, die mit bestimmten Labels korrelieren. Dieser Prozess unterscheidet sich von Validierungsdaten, die zur Abstimmung von Hyperparametern während des Trainings verwendet werden, und Testdaten, die für die abschließende Bewertung der Modellleistung reserviert sind.

Hochwertige Trainingsdaten müssen repräsentativ für die realen Szenarien sein, auf die das Modell treffen wird. Wenn der Datensatz Bias enthält oder es ihm an Vielfalt mangelt, kann das Modell unter Overfitting leiden, wobei es die Trainingsbeispiele auswendig lernt, aber bei neuen Eingaben nicht gut abschneidet. Umgekehrt tritt Underfitting auf, wenn die Daten zu einfach oder unzureichend sind, damit das Modell die zugrunde liegenden Muster erfassen kann.

Link to this sectionPraxisanwendungen#

Trainingsdaten treiben Innovationen in nahezu jeder Branche voran, indem sie es Systemen ermöglichen, aus historischen Beispielen zu lernen.

KI im Gesundheitswesen: In der medizinischen Diagnostik können Trainingsdaten aus tausenden Röntgenbildern bestehen, die entweder als „gesund“ oder mit spezifischen Pathologien wie Lungenentzündung gekennzeichnet sind. Durch die Verarbeitung dieser gelabelten Beispiele können Modelle wie Ultralytics YOLO26 lernen, Radiologen zu unterstützen, indem sie potenzielle Anomalien mit hoher Präzision hervorheben und so die Diagnosezeiten erheblich verkürzen.
Autonome Fahrzeuge: Selbstfahrende Autos verlassen sich auf riesige Datensätze, die Millionen von Meilen an Fahraufnahmen enthalten. Diese Trainingsdaten umfassen annotierte Frames, die Fußgänger, Verkehrsschilder, andere Fahrzeuge und Spurmarkierungen zeigen. Diese Informationen, die aus umfassenden Bibliotheken wie dem Waymo Open Dataset oder nuScenes stammen, lehren das Wahrnehmungssystem des Fahrzeugs, sicher durch komplexe Umgebungen zu navigieren.

Link to this sectionBeschaffung und Verwaltung von Daten#

Der Erwerb robuster Trainingsdaten ist oft der schwierigste Teil eines Machine-Learning-Projekts. Daten können aus öffentlichen Repositories wie Google Dataset Search oder spezialisierten Sammlungen wie COCO für die Objekterkennung bezogen werden. Rohdaten erfordern jedoch häufig eine sorgfältige Datenbereinigung und Annotation, um Genauigkeit zu gewährleisten.

Tools wie die Ultralytics Platform haben diesen Workflow optimiert und bieten eine integrierte Umgebung zum Hochladen, Labeln und Verwalten von Datensätzen. Effektives Management beinhaltet auch Datenaugmentierung, eine Technik, die verwendet wird, um die Größe des Trainingssatzes künstlich zu erhöhen, indem Transformationen – wie Spiegelung, Rotation oder Farbanpassung – auf bestehende Bilder angewendet werden. Dies hilft Modellen, robuster gegenüber Variationen in den Eingabedaten zu werden.

Link to this sectionPraktisches Beispiel mit YOLO26#

Das folgende Python-Beispiel zeigt, wie du das Training mithilfe der ultralytics-Bibliothek initiierst. Hier wird ein vortrainiertes YOLO26-Modell auf dem COCO8-Datensatz feinabgestimmt, einem kleinen Datensatz, der zur Überprüfung von Trainingspipelines entwickelt wurde.

from ultralytics import YOLO

# Load a pre-trained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 5 epochs
# The 'data' argument specifies the dataset configuration file
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Link to this sectionBedeutung der Datenqualität#

Das Sprichwort „Garbage in, garbage out“ ist grundlegend für das Machine Learning. Selbst die ausgefeiltesten Architekturen, wie Transformers oder tiefe Convolutional Neural Networks (CNNs), können schlechte Trainingsdaten nicht kompensieren. Probleme wie Label-Rauschen, bei dem die Ground-Truth-Labels falsch sind, können die Leistung erheblich verschlechtern. Daher sind strenge Qualitätssicherungsprozesse, die oft eine Human-in-the-Loop-Verifizierung beinhalten, unerlässlich, um die Integrität des Datensatzes aufrechtzuerhalten.

Darüber hinaus erfordert die Einhaltung von Prinzipien der KI-Ethik, dass Trainingsdaten auf demografische oder sozioökonomische Verzerrungen hin überprüft werden. Die Gewährleistung von Fairness in der KI beginnt mit einem ausgewogenen und repräsentativen Trainingsdatensatz, der dazu beiträgt, diskriminierende Ergebnisse in eingesetzten Anwendungen zu verhindern.

Training Data

Link to this sectionDie Rolle von Trainingsdaten in der KI#

Link to this sectionPraxisanwendungen#

Link to this sectionBeschaffung und Verwaltung von Daten#

Link to this sectionPraktisches Beispiel mit YOLO26#

Link to this sectionBedeutung der Datenqualität#

Explore solutions

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

Lass uns gemeinsam die Zukunft der KI bauen!