Underfitting
Lernen Sie anhand von Expertentipps, Strategien und Beispielen aus der Praxis, wie Sie Underfitting in Modellen für maschinelles Lernen erkennen, verhindern und beheben können.
Im Bereich des maschinellen Lernens (ML) ist es für eine optimale Modellleistung erforderlich, ein Gleichgewicht zwischen Einfachheit und Komplexität zu finden. Underfitting ist ein häufiges Problem, wenn ein Modell zu einfach ist, um die zugrunde liegenden Muster in den Trainingsdaten zu erfassen. Dies bedeutet, dass das Modell nicht effektiv lernt, was zu einer schlechten Leistung nicht nur bei den Daten führt, auf denen es trainiert wurde, sondern auch bei neuen, unbekannten Daten(Testdaten oder realen Eingaben). Ein unzureichend angepasstes Modell verfügt nicht über die nötige Kapazität oder Trainingszeit, um die Beziehungen innerhalb der Daten genau darzustellen, was zu einer hohen Verzerrung und der Unfähigkeit, gut zu verallgemeinern, führt.
Was sind die Ursachen für eine unzureichende Anpassung?
Mehrere Faktoren können zu einem unzureichend angepassten Modell beitragen:
- Unzureichende Modellkomplexität: Das gewählte Modell könnte für die Komplexität der Daten zu einfach sein. Zum Beispiel die Verwendung eines einfachen linearen Regressionsmodells für Daten mit nicht linearen Mustern oder die Verwendung eines neuronalen Netzes (NN) mit zu wenigen Schichten oder Neuronen.
- Unzureichendes Feature Engineering: Die dem Modell zur Verfügung gestellten Input-Features enthalten möglicherweise nicht genügend relevante Informationen oder repräsentieren die zugrunde liegenden Muster nicht effektiv.
- Unzureichende Trainingsdaten: Das Modell hat möglicherweise nicht genügend Beispiele gesehen, um die zugrunde liegenden Muster zu lernen. Dies gilt insbesondere für komplexe Deep-Learning-Modelle. Es ist wichtig, über vielfältige und repräsentative Daten zu verfügen, die über Plattformen wie Ultralytics-Datensätze erforscht werden können.
- Zu kurzes Training: Der Trainingsvorgang des Modells kann vorzeitig abgebrochen werden, bevor es genügend Epochen hatte, um die Muster in den Daten zu lernen.
- Übermäßige Regularisierung: Techniken, die zur Vermeidung von Overfitting eingesetzt werden, wie L1- oder L2-Regularisierung oder hohe Dropout-Raten, können das Modell manchmal zu stark einschränken und es daran hindern, notwendige Muster zu lernen, wenn sie zu stark angewendet werden.
Identifizierung von Underfitting
Die Unteranpassung wird in der Regel durch die Bewertung der Leistung des Modells während und nach dem Training festgestellt:
- Hoher Trainingsfehler: Das Modell schneidet selbst bei den Daten, auf denen es trainiert wurde, schlecht ab. Wichtige Metriken wie Genauigkeit, Präzision, Rückruf oder F1-Score sind niedrig und der Wert der Verlustfunktion bleibt hoch.
- Hoher Validierungs-/Testfehler: Das Modell schneidet auch bei ungesehenen Validierungsdaten oder Testdaten schlecht ab. Der Leistungsunterschied zwischen Trainings- und Validierungsfehler ist in der Regel gering, aber beide Fehler sind inakzeptabel hoch.
- Lernkurven: Das Auftragen der Trainings- und Validierungsverluste/-metriken gegen die Trainingsepochen kann eine Unteranpassung aufzeigen. Wenn beide Kurven bei einem hohen Fehlerniveau ein Plateau bilden, ist das Modell wahrscheinlich unterangepasst. Sie können diese mit Tools wie TensorBoard oder Weights & Biases überwachen. Das Verständnis spezifischer YOLO-Leistungsmetriken ist ebenfalls entscheidend.
Abhilfe bei Unterversorgung
Mehrere Strategien können helfen, die Unteranpassung zu überwinden:
- Erhöhen Sie die Modellkomplexität: Verwenden Sie eine leistungsfähigere Modellarchitektur mit mehr Parametern, Schichten oder Neuronen. Wechseln Sie zum Beispiel von einem einfacheren CNN zu einer fortschrittlicheren Architektur wie Ultralytics YOLO11 für Objekterkennungsaufgaben.
- Verbessern Sie das Feature Engineering: Erstellen Sie informativere Merkmale aus den vorhandenen Daten oder beziehen Sie neue relevante Datenquellen ein.
- Trainingsdauer erhöhen: Trainieren Sie das Modell für mehr Epochen, um ihm genügend Zeit zu geben, die Datenmuster zu lernen. Lesen Sie die Tipps zur Modellschulung für eine Anleitung.
- Verringerung der Regularisierung: Verringern Sie die Stärke der Regularisierungstechniken (z. B. verringern Sie den Regularisierungsparameter Lambda, verringern Sie die Dropout-Wahrscheinlichkeit).
- Ausreichende Daten sicherstellen: Sammeln Sie mehr Trainingsbeispiele. Wenn das Sammeln weiterer Daten nicht möglich ist, können Techniken wie die Datenerweiterung die Vielfalt der Schulungsdaten künstlich erhöhen. Die Verwaltung von Datensätzen kann mit Plattformen wie Ultralytics HUB rationalisiert werden.
Unteranpassung vs. Überanpassung
Underfitting und Overfitting sind zwei Seiten derselben Medaille und stehen für Fehler bei der Modellgeneralisierung.
- Unteranpassung: Das Modell ist zu einfach (hohe Verzerrung). Es schafft es nicht, die zugrunde liegenden Trends in den Daten zu erfassen, was zu einer schlechten Leistung sowohl bei den Trainings- als auch bei den Testsätzen führt.
- Überanpassung: Das Modell ist zu komplex (hohe Varianz). Es lernt die Trainingsdaten zu gut, einschließlich des Rauschens und der zufälligen Schwankungen, was zu einer exzellenten Leistung auf dem Trainingssatz, aber zu einer schlechten Leistung auf den ungesehenen Daten führt.
Das Ziel von ML ist es, einen "Sweet Spot" zwischen "Underfitting" und "Overfitting" zu finden, der oft im Zusammenhang mit dem "Bias-Variance-Tradeoff" diskutiert wird, bei dem das Modell die wahren zugrunde liegenden Muster lernt, ohne sich das Rauschen zu merken.
Beispiele aus der Praxis für Underfitting
- Einfacher Bildklassifikator: Training eines sehr einfachen Convolutional Neural Network (CNN) (z. B. mit nur einer oder zwei Faltungsschichten) für eine komplexe Bildklassifizierungsaufgabe wie die Klassifizierung von Tausenden von Objektkategorien im ImageNet. Das Modell würde sich wahrscheinlich nicht ausreichend anpassen, da seine begrenzte Kapazität es daran hindert, die komplizierten Merkmale zu lernen, die für eine effektive Unterscheidung zwischen vielen Klassen erforderlich sind. Sowohl die Trainings- als auch die Validierungsgenauigkeit würden niedrig bleiben.
- Grundlegende vorausschauende Wartung: Verwendung eines einfachen linearen Modells zur Vorhersage von Maschinenausfällen nur auf der Grundlage der Betriebstemperatur. Wenn Ausfälle tatsächlich durch ein komplexes Zusammenspiel von Faktoren wie Vibration, Alter, Druck und Temperaturnichtlinearitäten beeinflusst werden, ist das lineare Modell nicht ausreichend geeignet. Es kann die tatsächliche Komplexität nicht erfassen, was zu einer schlechten Vorhersageleistung bei der Modellierung und einer ungenauen Vorhersage von Ausfällen führt. Die Verwendung komplexerer Modelle oder besserer Funktionen wäre notwendig. Frameworks wie PyTorch oder TensorFlow bieten Tools zur Erstellung komplexerer Modelle.