Test Data
Erkunde die entscheidende Rolle von Testdaten beim maschinellen Lernen. Lerne, die Leistung von Ultralytics YOLO26 mithilfe unvoreingenommener Datensätze zu bewerten, um reale Genauigkeit sicherzustellen.
Testdaten sind ein spezifischer Teilbereich eines größeren Datensatzes, der strikt für die Bewertung der finalen Leistung eines Machine Learning (ML) Modells reserviert ist. Im Gegensatz zu Daten, die während der frühen Lernphasen verwendet werden, bleiben Testdaten bis ganz zum Ende des Entwicklungszyklus für den Algorithmus völlig „unbekannt“. Diese Isolierung ist entscheidend, da sie eine unvoreingenommene Einschätzung darüber liefert, wie gut ein Computer Vision (CV) Modell oder ein anderes KI-System auf neue, reale Eingaben verallgemeinern kann. Durch die Simulation einer Produktionsumgebung helfen Testdaten Entwicklern zu überprüfen, ob ihr Modell tatsächlich die zugrunde liegenden Muster gelernt hat, anstatt die Trainingsbeispiele lediglich auswendig zu lernen.
Link to this sectionDie Rolle von Testdaten im ML-Lebenszyklus#
Im standardmäßigen Machine Learning Workflow werden Daten üblicherweise in drei unterschiedliche Kategorien unterteilt, die jeweils einem einzigartigen Zweck dienen. Das Verständnis der Unterschiede zwischen diesen Aufteilungen ist unerlässlich, um robuste Künstliche Intelligenz (AI) Systeme aufzubauen.
- Trainingsdaten: Dies ist der größte Teil des Datensatzes, der verwendet wird, um das Modell zu trainieren. Der Algorithmus passt iterativ seine internen Parameter, oder Gewichte, an, um Fehler in diesem spezifischen Satz von Beispielen zu minimieren.
- Validierungsdaten: Dieser Teilbereich wird während des Trainings häufig verwendet, um Hyperparameter abzustimmen und Architektur-Entscheidungen zu leiten. Er dient als Zwischenprüfung, um Overfitting zu verhindern, bei dem ein Modell auf Trainingsdaten gut abschneidet, bei neuen Daten jedoch versagt.
- Testdaten: Dies ist die finale „Prüfung“ für das Modell. Sie werden niemals verwendet, um Gewichte zu aktualisieren oder Einstellungen zu optimieren. Die Auswertung anhand von Testdaten liefert definitive Leistungsmetriken wie Genauigkeit, Recall und Mean Average Precision (mAP), anhand derer Stakeholder entscheiden, ob ein Modell bereit für die Modellbereitstellung ist.
Die ordnungsgemäße Verwaltung dieser Aufteilungen wird oft durch Tools wie die Ultralytics Platform erleichtert, die hochgeladene Datensätze automatisch in diese essentiellen Kategorien organisieren kann, um eine gründliche Modellevaluierung sicherzustellen.
Link to this sectionBedeutung einer unvoreingenommenen Bewertung#
Der primäre Wert von Testdaten liegt in ihrer Fähigkeit, Probleme mit Datensatz-Bias und Varianz aufzudecken. Wenn ein Modell auf Trainingsdaten 99 % Genauigkeit erreicht, aber auf Testdaten nur 60 %, deutet dies auf eine hohe Varianz (Overfitting) hin. Umgekehrt deutet eine schlechte Leistung in beiden Fällen auf Underfitting hin.
Using a designated test set adheres to scientific principles of reproducibility and objectivity. Without a pristine test set, developers risk "teaching to the test," effectively leaking information from the evaluation phase back into the training phase—a phenomenon known as data leakage. This results in overly optimistic performance estimates that crumble when the model faces real-world data.
Link to this sectionPraxisanwendungen#
Testdaten sind in allen Branchen, die KI einsetzen, unerlässlich, um Sicherheit und Zuverlässigkeit zu gewährleisten, bevor Systeme live gehen.
- Autonomes Fahren: Bei der Entwicklung von autonomen Fahrzeugen können Trainingsdaten aus Millionen von Autobahnkilometern bei klarem Wetter bestehen. Die Testdaten müssen jedoch seltene und herausfordernde Szenarien enthalten – wie starken Schneefall, plötzliche Hindernisse oder verwirrende Straßenschilder –, die das Auto während des Trainings nie explizit „gesehen“ hat. Dies stellt sicher, dass das Objekterkennung System in unvorhersehbaren Umgebungen sicher reagieren kann.
- Gesundheitsdiagnostik: Beim Aufbau eines Modells für die Tumorerkennung in der medizinischen Bildgebung könnte der Trainingsdatensatz aus der Datenbank eines bestimmten Krankenhauses stammen. Um zu verifizieren, dass das Modell robust und für den allgemeinen Gebrauch sicher ist, sollten die Testdaten idealerweise Scans aus verschiedenen Krankenhäusern umfassen, die mit unterschiedlichen Geräten aufgenommen wurden und eine vielfältige Patientenpopulation repräsentieren. Diese externe Validierung bestätigt, dass die KI nicht auf einen bestimmten Gerätetyp oder eine bestimmte Bevölkerungsgruppe ausgerichtet ist.
Link to this sectionLeistung mit Code bewerten#
Mit dem ultralytics Paket kannst du die Leistung eines Modells einfach anhand eines zurückgehaltenen Datensatzes bewerten. Während der val Modus oft für die Validierung während des Trainings genutzt wird, kann er auch so konfiguriert werden, dass er auf einem spezifischen, in deiner Datensatz-YAML-Konfiguration definierten Test-Split läuft.
Here is how to evaluate a pre-trained YOLO26 model to obtain metrics like mAP50-95:
from ultralytics import YOLO
# Load a pre-trained YOLO26 model
model = YOLO("yolo26n.pt")
# Evaluate the model's performance on the validation set
# (Note: In a strict testing workflow, you would point 'data'
# to a YAML that defines a specific 'test' split and use split='test')
metrics = model.val(data="coco8.yaml")
# Print a specific metric, e.g., mAP at 50-95% IoU
print(f"Mean Average Precision (mAP50-95): {metrics.box.map}")This process generates comprehensive metrics, allowing developers to objectively compare different architectures, such as YOLO26 vs YOLO11, and ensure the chosen solution meets the project's defined goals. Rigorous testing is the final gatekeeping step in ensuring high-quality AI safety standards are met.






