Glossar

Test Daten

Erfahre, wie wichtig Testdaten in der KI sind und welche Rolle sie bei der Bewertung der Modellleistung, der Erkennung von Überanpassungen und der Gewährleistung der Zuverlässigkeit in der realen Welt spielen.

Trainiere YOLO Modelle einfach
mit Ultralytics HUB

Mehr erfahren

Testdaten sind eine wichtige Komponente im Entwicklungszyklus von Machine Learning (ML). Dabei handelt es sich um einen unabhängigen Datensatz, der von den Trainings- und Validierungsdaten getrennt ist und ausschließlich für die abschließende Bewertung der Leistung eines Modells nach Abschluss der Trainings- und Optimierungsphase verwendet wird. Dieser Datensatz enthält Datenpunkte, mit denen das Modell noch nie in Berührung gekommen ist, und gibt eine unvoreingenommene Einschätzung darüber, wie gut das Modell bei neuen, realen Daten abschneiden wird. Das Hauptziel bei der Verwendung von Testdaten ist es, die Generalisierungsfähigkeit des Modells einzuschätzen - seine Fähigkeit, bei unbekannten Eingaben genau zu arbeiten.

Die Bedeutung von Testdaten

Der wahre Maßstab für den Erfolg eines ML-Modells liegt in seiner Fähigkeit, mit Daten umzugehen, für die es nicht explizit trainiert wurde. Testdaten dienen als letzter Kontrollpunkt und bieten eine objektive Bewertung der Leistung des Modells. Ohne einen speziellen Testdatensatz besteht ein hohes Risiko der Überanpassung, d. h. ein Modell lernt die Trainingsdaten zu gut, einschließlich des Rauschens und der spezifischen Muster, kann aber nicht auf neue Daten verallgemeinert werden. Die Verwendung von Testdaten stellt sicher, dass die gemeldeten Leistungsdaten die erwarteten Fähigkeiten des Modells widerspiegeln und schafft Vertrauen, bevor das Modell eingesetzt wird. Dieser abschließende Evaluierungsschritt ist entscheidend, um verschiedene Modelle oder Ansätze zuverlässig zu vergleichen, z. B. YOLOv8 mit YOLOv9. Er entspricht den Best Practices, wie sie in den ML Rules vonGoogle beschrieben sind.

Wesentliche Merkmale

Um effektiv zu sein, müssen die Testdaten bestimmte Merkmale aufweisen:

  • Repräsentativität: Es sollte die Merkmale der realen Daten, auf die das Modell nach dem Einsatz trifft, genau widerspiegeln. Dazu gehören ähnliche Verteilungen von Merkmalen, Klassen und möglichen Variationen. Gute Verfahren zur Datenerfassung und -beschriftung sind unerlässlich.
  • Unabhängigkeit: Die Testdaten müssen streng von den Trainings- und Validierungsdaten getrennt sein. Sie sollten niemals für das Training des Modells oder die Abstimmung seiner Hyperparameter verwendet werden. Jede Überschneidung oder jedes Leck kann zu übermäßig optimistischen Leistungsschätzungen führen.
  • Ausreichende Größe: Die Testmenge muss groß genug sein, um statistisch aussagekräftige Ergebnisse zu liefern und die Leistung des Modells zuverlässig zu schätzen.

Testdaten vs. Trainings- und Validierungsdaten

Es ist wichtig, Testdaten von anderen Datensplits zu unterscheiden, die in ML verwendet werden:

  • Trainingsdaten: Dies ist der größte Teil des Datensatzes, der direkt zum Trainieren des Modells verwendet wird. Das Modell lernt Muster und Beziehungen aus diesen Daten durch Algorithmen wie Supervised Learning.
  • Validierungsdaten: Dieser separate Datensatz wird während der Trainingsphase verwendet, um die Hyperparameter des Modells zu optimieren (z. B. die Wahl der Architektur oder die Optimierungseinstellungen) und Entscheidungen über den Trainingsprozess zu treffen (z. B. frühzeitiges Abbrechen). Er gibt Aufschluss darüber, wie gut das Modell während des Trainings verallgemeinert, so dass die Modellevaluierung und die Feinabstimmung ohne die endgültige Testmenge erfolgen kann.
  • Testdaten: Werden nur einmal verwendet, nachdem Training und Validierung abgeschlossen sind, um eine endgültige, unvoreingenommene Bewertung der Leistung des Modells auf ungesehenen Daten zu erhalten.

Die richtige Trennung dieser Datensätze durch Strategien wie das sorgfältige Splitten von Daten ist entscheidend für die Entwicklung zuverlässiger Modelle und die genaue Bewertung ihrer Fähigkeiten in der Realität.

Beispiele aus der realen Welt

  1. Autonomes Fahren: Eine Ultralytics YOLO Modell, das für die Objekterkennung in selbstfahrenden Autos trainiert wurde, würde in einer Testreihe mit verschiedenen, bisher unbekannten Fahrszenarien (z. B. Nachtfahrten, starker Regen, unbekannte Kreuzungen) getestet. So wird sichergestellt, dass das Modell Fußgänger, Radfahrer und andere Fahrzeuge zuverlässig erkennt(Waymos Technologie ist auf solche Tests angewiesen), bevor es in echten Fahrzeugen eingesetzt wird.
  2. Medizinische Diagnose: In der medizinischen Bildanalyse muss ein Modell, das für die Erkennung von Tumoren mit Daten wie dem Brain Tumor Detection Dataset trainiert wurde, an einem Testsatz von Scans aus verschiedenen Krankenhäusern, Maschinen und Patientengruppen evaluiert werden, die nicht Teil der Trainings- oder Validierungsphase waren. Dies bestätigt die diagnostische Genauigkeit und Robustheit des Modells in realen klinischen Situationen.

Bewertung und Management

Die Leistung auf dem Testset wird in der Regel anhand von Metriken gemessen, die für die Aufgabe relevant sind, wie z. B. Genauigkeit, mittlere durchschnittliche Präzision (mAP) oder andere, die in Leitfäden wie der YOLO Performance Metrics Dokumentation beschrieben sind. Oft werden die Modelle mit etablierten Benchmark-Datensätzen wie COCO verglichen, um faire Vergleiche zu gewährleisten und die Reproduzierbarkeit zu fördern. Die Verwaltung dieser verschiedenen Datensätze während des gesamten Projektzyklus wird durch Plattformen wie Ultralytics HUB erleichtert, die dabei helfen, die Daten aufzuteilen und die Experimente effektiv zu verfolgen.

Alles lesen