Testdaten
Entdecken Sie die Bedeutung von Testdaten in der KI, ihre Rolle bei der Bewertung der Modellleistung, der Erkennung von Overfitting und der Sicherstellung der Zuverlässigkeit in der realen Welt.
Beim maschinellen Lernen sind Testdaten ein separater, unabhängiger Teil eines Datensatzes, der für die endgültige
Bewertung eines Modells verwendet wird, nachdem es vollständig trainiert und abgestimmt wurde. Dieser Datensatz fungiert als "Abschlussprüfung" für das
Modells und bietet eine unvoreingenommene Bewertung seiner Leistung bei neuen, ungesehenen Daten. Das Grundprinzip ist, dass das Modell
während seiner Entwicklung niemals von den Testdaten lernen oder von ihnen beeinflusst werden darf. Diese strikte Trennung gewährleistet, dass
die auf dem Testdatensatz berechneten Leistungskennzahlen, wie
Genauigkeit oder
mittlere durchschnittliche Präzision (mAP), die Fähigkeit
die Fähigkeit des Modells zur Generalisierung
auf reale Szenarien zu verallgemeinern. Strenge
Modellprüfung ist ein entscheidender Schritt vor der
Einsatz des Modells.
Die Rolle von Testdaten im ML-Lebenszyklus
In einem typischen Projekt des maschinellen Lernens (ML),
werden die Daten sorgfältig partitioniert, um verschiedenen Zwecken zu dienen. Das Verständnis für die Unterscheidung zwischen diesen Partitionen ist
ist grundlegend für die Erstellung zuverlässiger Modelle.
-
Trainingsdaten: Dies ist die größte
Teilmenge der Daten, die zum Lernen des Modells verwendet wird. Das Modell lernt iterativ Muster, Merkmale und Beziehungen, indem es
seine internen Modellgewichte auf der Grundlage der Beispiele
Beispielen im Trainingssatz. Eine wirksame Modellerstellung hängt von qualitativ hochwertigen Trainingsdaten und der Befolgung bewährter
Best Practices, wie sie in diesem
Tipps zur Modellschulung.
-
Validierungsdaten: Dies ist ein
separater Datensatz, der während des Trainingsprozesses verwendet wird. Ihr Zweck ist es, ein Feedback über die Leistung des Modells
Leistung des Modells bei ungesehenen Daten, was bei der
Abstimmung der Hyperparameter (z. B. Anpassung der
Lernrate) und zur Vermeidung von
Überanpassung. Es ist wie ein Übungstest, der hilft
die Lernstrategie zu steuern. Die Auswertung erfolgt häufig in einem speziellen
Validierungsmodus durchgeführt.
-
Testdaten: Dieser Datensatz wird vollständig isoliert aufbewahrt, bis das Training und die Validierung abgeschlossen sind.
Er wird nur einmal verwendet, um einen endgültigen, unvoreingenommenen Bericht über die Leistung des Modells zu erstellen. Die Verwendung der Testdaten zur Vornahme
weitere Anpassungen am Modell vorzunehmen, würde die Ergebnisse ungültig machen, ein Fehler, der manchmal als
"Datenleck" oder "Lehren für den
den Test" bezeichnet wird. Diese abschließende Bewertung ist wichtig, um zu verstehen, wie ein Modell, etwa ein
Ultralytics YOLO11 Modell, nach der Einführung leisten wird.
Nach der Schulung können Sie die val Modus für Ihren Test-Split, um endgültige Leistungskennzahlen zu erstellen.
from ultralytics import YOLO
# Load a trained YOLO11 model
model = YOLO("yolo11n.pt")
# Evaluate the model's performance on the COCO8 test set.
# This command runs a final, unbiased evaluation on the 'test' split.
metrics = model.val(data="coco8.yaml", split="test")
print(metrics.box.map) # Print mAP score
Ein Benchmark-Datensatz kann zwar als Test
dienen kann, besteht seine Hauptaufgabe darin, als öffentlicher Standard für den Vergleich verschiedener Modelle zu fungieren, der häufig bei akademischen Herausforderungen
wie die
ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Sie
können Beispiele dafür auf den Modellvergleichsseiten sehen.
Anwendungsfälle in der Praxis
-
KI in der Automobilindustrie: Ein Entwickler erstellt ein
Objekterkennungsmodell für ein
autonomes Fahrzeug, das Tausende von Stunden
von Fahrdaten für Training und Validierung. Bevor dieses Modell in einer Flotte eingesetzt wird, wird es anhand eines
Testdatensatz bewertet. Dieser Testdatensatz umfasst anspruchsvolle, bisher unbekannte Szenarien wie Nachtfahrten bei starkem Regen
Regen, die Navigation durch einen Schneesturm oder die Erkennung von Fußgängern, die teilweise durch andere Objekte verdeckt sind. Die Leistung des Modells
Leistung des Modells bei diesen Tests, oft unter Verwendung von Daten aus Benchmarks wie
nuScenes, bestimmt, ob das Modell die strengen
Sicherheits- und Zuverlässigkeitsstandards erfüllt, die für
KI im Automobilbereich erfüllt.
-
Medizinische Bildanalyse: A
Computer Vision (CV) Modell wird trainiert, um
Anzeichen einer Lungenentzündung auf Röntgenbildern aus einem Krankenhaus detect . Um sicherzustellen, dass es klinisch nützlich ist, muss das
muss das Modell an einem Datensatz von Bildern aus einem anderen Krankenhaussystem getestet werden. Diese Testdaten würden Bilder umfassen
die mit unterschiedlichen Geräten aufgenommen wurden, von verschiedenen Patienten stammen und von verschiedenen Radiologen interpretiert wurden.
Die Bewertung der Leistung des Modells anhand dieses externen Testdatensatzes ist von entscheidender Bedeutung für die Erlangung einer behördlichen Genehmigung, wie z. B.
von der
FDA, und die Bestätigung seines Nutzens für
KI im Gesundheitswesen. Dieser Prozess hilft sicherzustellen, dass das
dass das Modell Datensatzverzerrungen vermeidet und in neuen
neuen klinischen Situationen. Öffentliche medizinische Bildgebungsdatensätze finden Sie in Ressourcen wie
Das Archiv für Krebsbildgebung (TCIA).
Bewährte Praktiken für die Verwaltung von Testdaten
Um die Integrität Ihrer Bewertung zu gewährleisten, sollten Sie die folgenden bewährten Verfahren berücksichtigen:
-
Zufallsstichproben: Wenn Sie Ihre Daten aufteilen, stellen Sie sicher, dass die Testmenge eine repräsentative
Stichprobe des gesamten Problembereichs ist. Werkzeuge wie
scikit-learn's train_test_split
können dabei helfen, diese zufällige Partitionierung zu automatisieren.
-
Verhindern Sie Datenverluste: Stellen Sie sicher, dass es keine Überschneidungen zwischen Trainings- und Testsätzen gibt. Selbst subtile Lecks,
wie z. B. Frames aus demselben Videoclip in beiden Sets, können die Leistungsergebnisse künstlich aufblähen.
-
Repräsentative Verteilung: Bei Aufgaben wie
Klassifizierung, überprüfen Sie, ob die Klassenverteilung in der
Testsatz die Verteilung widerspiegelt, die Sie in der Realität erwarten.
-
Bewertungsmetriken: Wählen Sie Metriken, die mit Ihren Geschäftszielen übereinstimmen. Bei einer Sicherheitsanwendung zum Beispiel
Sicherheitsanwendung kann eine hohe Wiederauffindbarkeit wichtiger sein als
Präzision, um sicherzustellen, dass keine Bedrohungen übersehen werden.
Wenn Sie sich strikt an diese Grundsätze halten, können Sie mit Sicherheit Testdaten verwenden, um zu bescheinigen, dass Ihre
Ultralytics für die Produktionsumgebung bereit sind.