Glossar

Regularisierung

Verhindern Sie eine Überanpassung und verbessern Sie die Modellgeneralisierung mit Regularisierungstechniken wie L1, L2, Dropout und frühem Abbruch. Mehr erfahren!

Regularisierung ist eine Reihe von Techniken, die beim maschinellen Lernen (ML) eingesetzt werden, um ein häufiges Problem zu vermeiden, das als Overfitting bekannt ist. Bei einer Überanpassung lernt ein Modell die Trainingsdaten zu gut, einschließlich des Rauschens und der zufälligen Fluktuationen, was sich negativ auf seine Fähigkeit auswirkt, zu verallgemeinern und genaue Vorhersagen für neue, ungesehene Daten zu treffen. Bei der Regularisierung wird der Verlustfunktion ein Malus für die Modellkomplexität hinzugefügt, wodurch das Modell davon abgehalten wird, übermäßig komplexe Muster zu lernen. Auf diese Weise entsteht ein einfacheres, besser verallgemeinerbares Modell, das sowohl bei den Trainings- als auch bei den Validierungsdaten besser abschneidet.

Gängige Regularisierungstechniken

Es gibt mehrere weit verbreitete Regularisierungstechniken, die zur Verbesserung der Modellleistung und Robustheit beitragen:

L1- und L2-Regularisierung: Dies sind die gängigsten Formen der Regularisierung. Sie fügen der Verlustfunktion eine Strafe hinzu, die auf der Größe der Modellgewichte basiert. Die L1-Regularisierung (Lasso) neigt dazu, weniger wichtige Merkmalsgewichte auf genau Null zu schrumpfen, wodurch eine effektive Merkmalsauswahl erfolgt. Die L2-Regularisierung (Ridge oder Weight Decay) zwingt die Gewichte dazu, klein, aber selten Null zu sein. Ein tieferes Eintauchen in die mathematischen Unterschiede kann in Ressourcen wie den Stanford CS229 Kursnotizen gefunden werden.
Abbruchschicht: Diese Technik ist spezifisch für neuronale Netze. Während des Trainings wird bei jedem Aktualisierungsschritt zufällig ein Teil der Neuronenaktivierungen auf Null gesetzt. Dadurch wird verhindert, dass sich die Neuronen zu sehr angleichen, und das Netz wird gezwungen, robustere Merkmale zu lernen. Das Konzept wurde in einer sehr einflussreichen Forschungsarbeit vorgestellt.
Datenerweiterung: Durch die künstliche Vergrößerung der Größe und Vielfalt der Trainingsdaten hilft die Datenerweiterung dem Modell, sich besser an kleinere Änderungen anzupassen. Zu den üblichen Techniken gehören das Drehen, Beschneiden, Skalieren und Verschieben von Farben in Bildern. Ultralytics bietet integrierte YOLO-Datenerweiterungsmethoden zur Verbesserung der Modellrobustheit.
Frühzeitiges Aufhören: Hierbei handelt es sich um eine praktische Methode, bei der die Leistung des Modells auf einem Validierungssatz während des Trainings überwacht wird. Der Trainingsprozess wird angehalten, wenn sich die Leistung der Validierung nicht mehr verbessert, um zu verhindern, dass das Modell in späteren Epochen eine Überanpassung vornimmt. Ein praktischer Leitfaden zur Implementierung von Early Stopping ist in der PyTorch-Dokumentation verfügbar.

Anwendungen in der realen Welt

Die Regularisierung ist von grundlegender Bedeutung für die Entwicklung effektiver Deep-Learning-Modelle (DL) in verschiedenen Bereichen.

Computer Vision: Bei Objekterkennungsmodellen wie Ultralytics YOLO ist die Regularisierung von entscheidender Bedeutung für die Verallgemeinerung von Datensätzen wie COCO auf Anwendungen in der realen Welt. In der KI für Automobillösungen zum Beispiel helfen L2-Regularisierung und Dropout einem Verkehrszeichendetektor, unter verschiedenen Licht- und Wetterbedingungen zuverlässig zu arbeiten, indem sie verhindern, dass er sich die spezifischen Beispiele aus dem Training merkt.
Verarbeitung natürlicher Sprache (NLP): Große Sprachmodelle (Large Language Models, LLMs) sind aufgrund ihrer großen Anzahl von Parametern anfällig für eine Überanpassung. In Anwendungen wie der maschinellen Übersetzung wird Dropout in Transformer-Architekturen verwendet, um sicherzustellen, dass das Modell grammatikalische Regeln und semantische Beziehungen lernt, anstatt sich nur bestimmte Satzpaare aus den Trainingsdaten zu merken.