Regularisierung
Verhindern Sie Overfitting und verbessern Sie die Modellgeneralisierung mit Regularisierungstechniken wie L1, L2, Dropout und Early Stopping. Mehr erfahren!
Regularisierung ist eine wichtige Strategie beim
maschinellen Lernens (ML), um die Fähigkeit eines
Modells auf neue, ungesehene Daten zu generalisieren. Ihr Hauptziel ist die Verhinderung
Überanpassung zu verhindern, ein häufiges Phänomen, bei dem ein Modell lernt
das Rauschen und die spezifischen Details der
Trainingsdaten zum Nachteil seiner Leistung bei gültigen
gültigen Eingaben. Durch die Einführung zusätzlicher Informationen oder Beschränkungen - oft in Form eines zur Verlustfunktion hinzugefügten
Verlustfunktion hinzugefügt wird -hält die Regularisierungdas Modell davon ab
davon ab, übermäßig komplex zu werden. Dies führt zu einem robusteren System, das eine hohe
Genauigkeit sowohl bei Trainings- als auch
Validierungsdaten beibehält.
Gängige Regularisierungstechniken
Es gibt mehrere etablierte Methoden zur Anwendung der Regularisierung, die jeweils auf unterschiedliche Aspekte der Modellkomplexität abzielen
und der Trainingsdynamik:
-
L1- und L2-Regularisierung: Dies sind die traditionellsten Formen. Die L1-Regularisierung (Lasso) fügt eine Strafe hinzu, die dem absoluten Wert der
Koeffizienten, was dazu führen kann, dass einige Gewichte auf Null gesetzt werden, wodurch eine effektive Merkmalsauswahl erfolgt. L2-Regularisierung
(Ridge), die beim Deep Learning (DL) häufig verwendet wird, fügt
eine Strafe in Höhe des Quadrats des Betrags der Koeffizienten hinzu, was kleinere, diffusere
Modellgewichte.
-
Abbruchschicht: Speziell entwickelt für
neuronale Netze (NN) entwickelt, deaktiviert Dropout
einen Teil der Neuronen während jedes Trainingsschritts aus. Dies zwingt das Netzwerk zum Lernen redundanter
Repräsentationen zu lernen und verhindert die Abhängigkeit von spezifischen Neuronenpfaden, ein Konzept, das in der
ursprünglichen Dropout-Forschungsarbeit.
-
Datenerweiterung: Anstatt die Modellarchitektur zu ändern, wird bei dieser Technik die Trainingsmenge durch die Erstellung modifizierter
Versionen bestehender Bilder oder Datenpunkte. Transformationen wie Drehen, Skalieren und Spiegeln helfen dem Modell
das Modell invariant gegenüber diesen Änderungen zu machen. Sie können die
YOLO Datenerweiterungstechniken erkunden, um zu sehen
wie dies in der Praxis angewendet wird.
-
Frühzeitiges Anhalten: Bei diesem praktischen Ansatz wird die Leistung des Modells während des Trainings auf einem Validierungsset überwacht. Wenn der
sich der Validierungsverlust nicht mehr verbessert oder zu steigen beginnt, wird der
wird der Trainingsprozess sofort gestoppt. Dies verhindert, dass das
Modell daran gehindert wird, in den späteren Phasen des Trainings weiterhin Rauschen zu lernen.
-
Etikett glätten: Diese Technik passt die Zielkennzeichnungen während des Trainings an, so dass das Modell nicht gezwungen ist, mit 100%iger Sicherheit (z.B. 1,0 Wahrscheinlichkeit) vorherzusagen.
vorhersagen muss (z. B. mit einer Wahrscheinlichkeit von 1,0). Durch die Abschwächung der Ziele (z. B. auf 0,9) verhindert das Label Smoothing, dass das Netz
verhindert, dass das Netzwerk zu selbstsicher wird, was für Aufgaben wie
Bildklassifizierung.
Implementierung der Regularisierung in Python
Moderne Bibliotheken wie Ultralytics machen es einfach, diese Techniken über Trainingsargumente anzuwenden. Das
folgende Beispiel zeigt, wie man eine YOLO11 Modell
mit L2-Regularisierung (gesteuert durch weight_decay) und Dropout, um ein robustes Modell zu gewährleisten.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model with specific regularization parameters
# 'weight_decay' applies L2 regularization
# 'dropout' applies a dropout layer with a 10% probability
results = model.train(data="coco8.yaml", epochs=50, weight_decay=0.0005, dropout=0.1)
Anwendungsfälle in der Praxis
Die Regularisierung ist für den Einsatz von zuverlässigen KI-Systemen in verschiedenen Branchen unerlässlich.
-
Autonomes Fahren: In
KI für Automobillösungen müssen Computer Vision
Modelle müssen Fußgänger und Verkehrsschilder unter verschiedenen Wetterbedingungen detect . Ohne Regularisierung könnte ein Modell
bestimmte Lichtverhältnisse aus dem Trainingssatz einprägen und in der realen Welt versagen. Techniken wie
Gewichtsabnahme stellen sicher, dass das Erkennungssystem auch bei
Regen, Nebel oder Blendung.
-
Medizinische Bildgebung: Bei der Durchführung von
medizinischen Bildanalyse sind die Datensätze oft
in ihrer Größe begrenzt. Eine Überanpassung ist hier ein erhebliches Risiko. Regularisierungsmethoden, insbesondere
Datenerweiterung und frühzeitiges Stoppen, helfen
Modelle, die für die detect Anomalien in Röntgenbildern oder MRTs trainiert wurden, bleiben auch bei neuen Patientendaten genau und unterstützen so bessere
Diagnoseergebnisse.
Regularisierung vs. verwandte Konzepte
Es ist hilfreich, die Regularisierung von anderen Optimierungs- und Vorverarbeitungsbegriffen zu unterscheiden:
-
Regularisierung vs. Normalisierung: Bei der Normalisierung werden die Eingabedaten auf einen Standardbereich skaliert, um die Konvergenz zu beschleunigen. Während Techniken wie
Batch-Normalisierung einen leichten
Regularisierungseffekt haben können, besteht ihr Hauptzweck darin, die Lerndynamik zu stabilisieren, während die Regularisierung explizit die Komplexität
Komplexität bestraft.
-
Regularisierung vs.
Abstimmung der Hyperparameter: Regularisierungsparameter (wie die Dropout-Rate oder L2-Strafe) sind selbst Hyperparameter. Hyperparameter
Tuning ist der umfassendere Prozess der Suche nach den optimalen Werten für diese Einstellungen, oft unter Verwendung von Tools wie dem
Ultralytics Tuner.
-
Regularisierung vs. Ensemble-Lernen: Ensemble-Methoden kombinieren Vorhersagen aus mehreren Modellen, um die Varianz zu verringern und die Generalisierung zu verbessern. Während
ein ähnliches Ziel wie die Regularisierung, jedoch durch die Zusammenfassung verschiedener Modelle und nicht durch die Einschränkung
das Lernen eines einzelnen Modells.