Glossar

Trainingsdaten

Entdecke die Bedeutung von Trainingsdaten in der KI. Erfahre, wie hochwertige Datensätze genaue, robuste Machine-Learning-Modelle für reale Aufgaben ermöglichen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

In den Bereichen künstliche Intelligenz (KI) und maschinelles Lernen (ML) sind Trainingsdaten der grundlegende Datensatz, der verwendet wird, um Modellen beizubringen, wie sie bestimmte Aufgaben wie Klassifizierung oder Vorhersage durchführen können. Sie bestehen aus einer großen Sammlung von Beispielen, wobei jedes Beispiel typischerweise eine Eingabe mit einer gewünschten Ausgabe oder einem Label verbindet. Durch Prozesse wie das überwachte Lernen analysiert das Modell diese Daten, identifiziert die zugrunde liegenden Muster und Beziehungen und passt seine internen Parameter(Modellgewichte) an, um die Zuordnung von Eingaben zu Ausgaben zu lernen. Durch dieses Lernen ist das Modell in der Lage, genaue Vorhersagen oder Entscheidungen zu treffen, wenn es mit neuen, bisher unbekannten Daten konfrontiert wird.

Was sind Trainingsdaten?

Betrachte die Trainingsdaten als das Lehrbuch und die Übungsaufgaben für ein KI-Modell. Es handelt sich dabei um eine sorgfältig zusammengestellte Menge von Informationen, die speziell für die Lernphase als Beispiele aufbereitet werden. Bei Computer-Vision-Aufgaben (CV) wie der Objekterkennung bestehen die Trainingsdaten beispielsweise aus Bildern oder Videoframes (den Eingangsmerkmalen), gepaart mit Anmerkungen (Labels), die den Ort(Bounding Boxes) und die Klasse der Objekte in diesen Bildern angeben. Die Erstellung dieser Beschriftungen ist ein wichtiger Schritt, der als Data Labeling bezeichnet wird. Das Modell verarbeitet diese Daten iterativ, vergleicht seine Vorhersagen mit den tatsächlichen Beschriftungen und passt seine Parameter mit Techniken wie Backpropagation und Gradientenabstieg an, um den Fehler oder die Verlustfunktion zu minimieren.

Die Bedeutung von Trainingsdaten

Die Leistung und Zuverlässigkeit eines KI-Modells hängt direkt von der Qualität, der Menge und der Vielfalt seiner Trainingsdaten ab. Qualitativ hochwertige, repräsentative Daten sind entscheidend für die Erstellung von Modellen, die eine hohe Genauigkeit erreichen und sich gut auf reale Szenarien verallgemeinern lassen(Generalisierung in der KI). Umgekehrt können unzureichende, verrauschte oder verzerrte Trainingsdaten zu erheblichen Problemen führen, wie z. B. zu schlechter Leistung, Overfitting (wenn das Modell in den Trainingsdaten gut, in den neuen Daten aber schlecht abschneidet) oder unfairen und diskriminierenden Ergebnissen aufgrund von inhärenten Dataset Bias. Der Umgang mit Verzerrungen ist ein wichtiger Aspekt der KI-Ethik. Daher sind eine sorgfältige Datenerfassung und -kommentierung sowie die Vorbereitung der Daten ein entscheidender Schritt bei der Entwicklung erfolgreicher KI-Systeme.

Beispiele für Trainingsdaten in realen Anwendungen

Trainingsdaten sind der Treibstoff für unzählige KI-Anwendungen in den verschiedensten Bereichen. Hier sind zwei Beispiele:

  1. Autonome Fahrzeuge: Selbstfahrende Autos sind stark auf Trainingsdaten für Wahrnehmungssysteme angewiesen. Zu diesen Daten gehören riesige Mengen an Bildmaterial von Kameras, LiDAR- und Radarsensoren, die sorgfältig mit Objekten wie anderen Fahrzeugen, Fußgängern, Radfahrern, Ampeln und Fahrbahnmarkierungen versehen sind. Modelle, wie sie in Waymos Technologie verwendet werden, werden auf Datensätzen wie Argoverse trainiert, um zu lernen, wie man sicher durch komplexe Umgebungen navigiert. Weitere Informationen findest du unter KI in der Automobilindustrie.
  2. Stimmungsanalyse: Bei der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) bestimmen Sentiment-Analysemodelle den emotionalen Ton eines Textes. Die Trainingsdaten bestehen aus Textproben (z. B. Kundenrezensionen, Beiträge in sozialen Medien), die mit Stimmungen wie "positiv", "negativ" oder "neutral" gekennzeichnet sind(Sentiment Analysis - Wikipedia). So können Unternehmen die öffentliche Meinung oder die Kundenzufriedenheit automatisch einschätzen.

Datenqualität und -aufbereitung

Die Sicherstellung einer hohen Qualität der Trainingsdaten ist von größter Bedeutung und umfasst mehrere wichtige Schritte. Die Datenbereinigung (Wikipedia) befasst sich mit Fehlern, Inkonsistenzen und fehlenden Werten. Die Datenvorverarbeitung wandelt die Rohdaten in ein für das Modell geeignetes Format um. Techniken wie die Datenerweiterung (Data Augmentation) erweitern den Datensatz künstlich, indem sie veränderte Kopien der vorhandenen Daten erstellen (z. B. durch Drehen oder Beschneiden von Bildern). Bevor du mit dem Trainingsprozess beginnst, ist es außerdem wichtig, dass du deine Daten mit Hilfe von Tools wie dem Ultralytics Datasets Explorer erkundest.

Trainingsdaten vs. Validierungs- und Testdaten

Bei einem typischen ML-Projekt werden die Daten in drei verschiedene Gruppen aufgeteilt:

  • Trainingsdaten: Der größte Teil, der direkt zum Trainieren des Modells verwendet wird, indem seine Parameter angepasst werden. Für ein effektives Training ist es oft notwendig, Tipps für das Modelltraining zu berücksichtigen.
  • Validierungsdaten: Eine separate Teilmenge, die während des Trainings regelmäßig verwendet wird, um die Leistung des Modells anhand von Daten zu bewerten, aus denen es nicht explizit gelernt hat. Dies hilft bei der Abstimmung der Hyperparameter (z. B. Lernrate, Stapelgröße) durch Verfahren wie die Hyperparameter-Optimierung (Wikipedia) und warnt frühzeitig vor Überanpassung. Für diese Auswertung wird der Validierungsmodus verwendet.
  • Testdaten: Ein unabhängiger Datensatz, der während des Trainings und der Validierung ungesehen bleibt und erst verwendet wird , wenn das Modell vollständig trainiert ist. Er liefert die endgültige, unvoreingenommene Bewertung der Generalisierungsfähigkeit des Modells und der erwarteten Leistung in der realen Welt. Strenge Modelltests sind vor dem Einsatz unerlässlich.

Die strikte Trennung dieser Datensätze ist entscheidend für die Entwicklung zuverlässiger Modelle und die genaue Bewertung ihrer Fähigkeiten. Plattformen wie Ultralytics HUB bieten Werkzeuge für die effektive Verwaltung dieser Datensätze während des gesamten Lebenszyklus der Modellentwicklung. Hochmoderne Modelle wie Ultralytics YOLO werden oft auf großen Benchmark-Datensätzen wie COCO oder ImageNet trainiert, die als umfangreiche Trainingsdaten dienen.

Alles lesen