Learning Rate
Erfahre, wie die Lernrate das Modelltraining beeinflusst. Entdecke, wie du die Schrittweite für Ultralytics YOLO26 optimierst, um SOTA-Leistung bei der Objekterkennung und mehr zu erzielen.
Die Lernrate ist eine kritische Konfiguration für das Hyperparameter-Tuning, die die Schrittweite bestimmt, die ein Modell während des Optimierungsprozesses macht. Im Kontext des Trainings eines neuronalen Netzwerks steuert sie, wie stark die internen Gewichte des Modells als Reaktion auf den geschätzten Fehler aktualisiert werden, jedes Mal, wenn das Modell einen Datensatz-Batch verarbeitet. Stell dir das wie eine Person vor, die einen Berg hinunter in ein Tal wandert (den Punkt mit dem geringsten Fehler); die Lernrate bestimmt die Länge ihrer Schritte. Wenn die Schritte zu groß sind, könnte sie über das Tal hinausschießen und den tiefsten Punkt verfehlen. Wenn die Schritte zu klein sind, könnte das Erreichen des Ziels unpraktisch lange dauern.
Link to this sectionDas „Goldlöckchen“-Dilemma bei der Optimierung#
Das Finden der optimalen Lernrate wird oft als Balanceakt innerhalb von Machine Learning-Workflows beschrieben. Das Ziel ist die Minimierung der Verlustfunktion, die den Unterschied zwischen den Vorhersagen des Modells und der tatsächlichen Ground Truth misst. Dieser Prozess stützt sich stark auf einen Optimierungsalgorithmus wie stochastischen Gradientenabstieg (SGD) oder den Adam-Optimizer, um durch die Verlustlandschaft zu navigieren.
- Lernrate zu hoch: Wenn der Wert zu hoch eingestellt ist, werden die Gewichtsaktualisierungen des Modells drastisch sein. Dies kann zum Phänomen des „Overshootings“ führen, bei dem das Modell keine Lösung findet und stattdessen stark oszilliert oder divergiert. Diese Instabilität kann manchmal ein Exploding Gradient-Problem auslösen, wodurch der Trainingsprozess unbrauchbar wird.
- Lernrate zu niedrig: Umgekehrt sorgt eine extrem kleine Schrittweite zwar dafür, dass sich das Modell vorsichtig auf das Minimum zubewegt, kann aber zu Underfitting führen, da der Trainingsprozess qualvoll langsam wird. Das Modell bleibt möglicherweise effektiv in einem lokalen Minimum stecken oder benötigt Tausende zusätzliche Epochen, um einfache Muster zu lernen, was Ressourcen rechnerisch verschwendet. Forscher ziehen oft die PyTorch-Dokumentation zur Optimierung zu Rate, um zu verstehen, wie verschiedene Algorithmen mit diesen Werten interagieren.
Link to this sectionPraxisanwendungen#
The impact of learning rate adjustments is evident across various high-stakes industries where computer vision tasks are deployed.
-
Autonomous Driving Systems: In the development of autonomous vehicles, engineers utilize vast datasets to train models for object detection to identify pedestrians and traffic signs. When applying transfer learning to a pre-trained model like YOLO26, developers typically use a much smaller learning rate than they would during initial training. This "fine-tuning" ensures that the model learns the nuances of specific driving environments (e.g., snowy roads vs. desert highways) without erasing the general feature extraction capabilities it already possesses.
-
Medizinische diagnostische Bildgebung: Bei der medizinischen Bildanalyse, etwa der Erkennung von Tumoren in MRT-Scans, steht Präzision an oberster Stelle. Eine hohe Lernrate birgt hier das Risiko, dass das Modell subtile Texturunterschiede überspringt, die bösartiges von gutartigem Gewebe unterscheiden. Praktiker setzen oft eine Technik namens „Learning Rate Warmup“ ein, bei der die Rate schrittweise von Null auf einen Zielwert erhöht wird, um die frühen Trainingsphasen zu stabilisieren und sicherzustellen, dass sich die Gewichte des neuronalen Netzwerks in einer stabilen Konfiguration festigen, bevor aggressives Lernen beginnt. Mehr über diese Strategien kannst du im Google Machine Learning Crash Course nachlesen.
Link to this sectionUnterscheidung verwandter Begriffe#
Es ist wichtig, die Lernrate von anderen Trainingsparametern zu unterscheiden, da sie oft in denselben Konfigurationsdateien eingestellt werden, aber unterschiedlichen Zwecken dienen:
- Lernrate vs. Batch-Größe: Während die Lernrate die Größenordnung der Aktualisierung steuert, bestimmt die Batch-Größe die Anzahl der Trainingsbeispiele, die verarbeitet werden, bevor eine Aktualisierung stattfindet. Es besteht ein starker Zusammenhang zwischen beiden; oft muss man bei einer Erhöhung der Batch-Größe auch die Lernrate anpassen, um die Trainingseffizienz aufrechtzuerhalten – ein Konzept, das in Arbeiten zum Large-Batch-Training untersucht wurde.
- Lernrate vs. Decay: Decay bezeichnet eine Strategie, bei der die Lernrate im Laufe der Zeit systematisch reduziert wird. Ein Scheduler könnte die Rate alle 30 Epochen um den Faktor 10 senken. Dies hilft dem Modell, anfangs große konzeptionelle Sprünge zu machen und gegen Ende des Trainings die Genauigkeit mit kleineren Schritten zu verfeinern. Dies ist eine Standardfunktion im Ultralytics Python-Paket.
Link to this sectionLernrate in Ultralytics YOLO einstellen#
Bei der Verwendung moderner Frameworks kannst du die anfängliche Lernrate (lr0) und den Anteil der endgültigen Lernrate (lrf) einfach anpassen. Unten ist ein Beispiel, wie man dies über den mit der Ultralytics Platform kompatiblen Client für einen benutzerdefinierten Trainingslauf konfiguriert.
from ultralytics import YOLO
# Load the YOLO26 model (latest state-of-the-art architecture)
model = YOLO("yolo26n.pt")
# Train the model with a custom initial learning rate
# lr0=0.01 sets the initial rate
# lrf=0.01 sets the final learning rate to (lr0 * lrf)
results = model.train(data="coco8.yaml", epochs=10, lr0=0.01, lrf=0.01)Für fortgeschrittene Benutzer können Techniken wie der LR Finder (popularisiert durch fast.ai) die Ermittlung des besten Startwerts im Wesentlichen automatisieren, indem eine kurze Testepoche durchgeführt wird, in der die Rate exponentiell erhöht wird, bis der Verlust divergiert. Die Beherrschung dieses Hyperparameters ist oft der Schlüssel zum Freischalten von SOTA (State-of-the-Art)-Leistung in deinen KI-Projekten.






