Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Testdaten

Entdecken Sie die Bedeutung von Testdaten in der KI, ihre Rolle bei der Bewertung der Modellleistung, der Erkennung von Overfitting und der Sicherstellung der Zuverlässigkeit in der realen Welt.

Beim maschinellen Lernen sind Testdaten ein separater, unabhängiger Teil eines Datensatzes, der für die endgültige Bewertung eines Modells verwendet wird, nachdem es vollständig trainiert und abgestimmt wurde. Dieser Datensatz fungiert als "Abschlussprüfung" für das Modells und bietet eine unvoreingenommene Bewertung seiner Leistung bei neuen, ungesehenen Daten. Das Grundprinzip ist, dass das Modell während seiner Entwicklung niemals von den Testdaten lernen oder von ihnen beeinflusst werden darf. Diese strikte Trennung gewährleistet, dass die auf dem Testdatensatz berechneten Leistungskennzahlen, wie Genauigkeit oder mittlere durchschnittliche Präzision (mAP), die Fähigkeit die Fähigkeit des Modells zur Generalisierung auf reale Szenarien zu verallgemeinern. Strenge Modellprüfung ist ein entscheidender Schritt vor der Einsatz des Modells.

Die Rolle von Testdaten im ML-Lebenszyklus

In einem typischen Projekt des maschinellen Lernens (ML), werden die Daten sorgfältig partitioniert, um verschiedenen Zwecken zu dienen. Das Verständnis für die Unterscheidung zwischen diesen Partitionen ist ist grundlegend für die Erstellung zuverlässiger Modelle.

  • Trainingsdaten: Dies ist die größte Teilmenge der Daten, die zum Lernen des Modells verwendet wird. Das Modell lernt iterativ Muster, Merkmale und Beziehungen, indem es seine internen Modellgewichte auf der Grundlage der Beispiele Beispielen im Trainingssatz. Eine wirksame Modellerstellung hängt von qualitativ hochwertigen Trainingsdaten und der Befolgung bewährter Best Practices, wie sie in diesem Tipps zur Modellschulung.
  • Validierungsdaten: Dies ist ein separater Datensatz, der während des Trainingsprozesses verwendet wird. Ihr Zweck ist es, ein Feedback über die Leistung des Modells Leistung des Modells bei ungesehenen Daten, was bei der Abstimmung der Hyperparameter (z. B. Anpassung der Lernrate) und zur Vermeidung von Überanpassung. Es ist wie ein Übungstest, der hilft die Lernstrategie zu steuern. Die Auswertung erfolgt häufig in einem speziellen Validierungsmodus durchgeführt.
  • Testdaten: Dieser Datensatz wird vollständig isoliert aufbewahrt, bis das Training und die Validierung abgeschlossen sind. Er wird nur einmal verwendet, um einen endgültigen, unvoreingenommenen Bericht über die Leistung des Modells zu erstellen. Die Verwendung der Testdaten zur Vornahme weitere Anpassungen am Modell vorzunehmen, würde die Ergebnisse ungültig machen, ein Fehler, der manchmal als "Datenleck" oder "Lehren für den den Test" bezeichnet wird. Diese abschließende Bewertung ist wichtig, um zu verstehen, wie ein Modell, etwa ein Ultralytics YOLO11 Modell, nach der Einführung leisten wird.

Nach der Schulung können Sie die val Modus für Ihren Test-Split, um endgültige Leistungskennzahlen zu erstellen.

from ultralytics import YOLO

# Load a trained YOLO11 model
model = YOLO("yolo11n.pt")

# Evaluate the model's performance on the COCO8 test set.
# This command runs a final, unbiased evaluation on the 'test' split.
metrics = model.val(data="coco8.yaml", split="test")
print(metrics.box.map)  # Print mAP score

Ein Benchmark-Datensatz kann zwar als Test dienen kann, besteht seine Hauptaufgabe darin, als öffentlicher Standard für den Vergleich verschiedener Modelle zu fungieren, der häufig bei akademischen Herausforderungen wie die ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Sie können Beispiele dafür auf den Modellvergleichsseiten sehen.

Anwendungsfälle in der Praxis

  1. KI in der Automobilindustrie: Ein Entwickler erstellt ein Objekterkennungsmodell für ein autonomes Fahrzeug, das Tausende von Stunden von Fahrdaten für Training und Validierung. Bevor dieses Modell in einer Flotte eingesetzt wird, wird es anhand eines Testdatensatz bewertet. Dieser Testdatensatz umfasst anspruchsvolle, bisher unbekannte Szenarien wie Nachtfahrten bei starkem Regen Regen, die Navigation durch einen Schneesturm oder die Erkennung von Fußgängern, die teilweise durch andere Objekte verdeckt sind. Die Leistung des Modells Leistung des Modells bei diesen Tests, oft unter Verwendung von Daten aus Benchmarks wie nuScenes, bestimmt, ob das Modell die strengen Sicherheits- und Zuverlässigkeitsstandards erfüllt, die für KI im Automobilbereich erfüllt.
  2. Medizinische Bildanalyse: A Computer Vision (CV) Modell wird trainiert, um Anzeichen einer Lungenentzündung auf Röntgenbildern aus einem Krankenhaus detect . Um sicherzustellen, dass es klinisch nützlich ist, muss das muss das Modell an einem Datensatz von Bildern aus einem anderen Krankenhaussystem getestet werden. Diese Testdaten würden Bilder umfassen die mit unterschiedlichen Geräten aufgenommen wurden, von verschiedenen Patienten stammen und von verschiedenen Radiologen interpretiert wurden. Die Bewertung der Leistung des Modells anhand dieses externen Testdatensatzes ist von entscheidender Bedeutung für die Erlangung einer behördlichen Genehmigung, wie z. B. von der FDA, und die Bestätigung seines Nutzens für KI im Gesundheitswesen. Dieser Prozess hilft sicherzustellen, dass das dass das Modell Datensatzverzerrungen vermeidet und in neuen neuen klinischen Situationen. Öffentliche medizinische Bildgebungsdatensätze finden Sie in Ressourcen wie Das Archiv für Krebsbildgebung (TCIA).

Bewährte Praktiken für die Verwaltung von Testdaten

Um die Integrität Ihrer Bewertung zu gewährleisten, sollten Sie die folgenden bewährten Verfahren berücksichtigen:

  • Zufallsstichproben: Wenn Sie Ihre Daten aufteilen, stellen Sie sicher, dass die Testmenge eine repräsentative Stichprobe des gesamten Problembereichs ist. Werkzeuge wie scikit-learn's train_test_split können dabei helfen, diese zufällige Partitionierung zu automatisieren.
  • Verhindern Sie Datenverluste: Stellen Sie sicher, dass es keine Überschneidungen zwischen Trainings- und Testsätzen gibt. Selbst subtile Lecks, wie z. B. Frames aus demselben Videoclip in beiden Sets, können die Leistungsergebnisse künstlich aufblähen.
  • Repräsentative Verteilung: Bei Aufgaben wie Klassifizierung, überprüfen Sie, ob die Klassenverteilung in der Testsatz die Verteilung widerspiegelt, die Sie in der Realität erwarten.
  • Bewertungsmetriken: Wählen Sie Metriken, die mit Ihren Geschäftszielen übereinstimmen. Bei einer Sicherheitsanwendung zum Beispiel Sicherheitsanwendung kann eine hohe Wiederauffindbarkeit wichtiger sein als Präzision, um sicherzustellen, dass keine Bedrohungen übersehen werden.

Wenn Sie sich strikt an diese Grundsätze halten, können Sie mit Sicherheit Testdaten verwenden, um zu bescheinigen, dass Ihre Ultralytics für die Produktionsumgebung bereit sind.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten