Glossar

Adam Optimierer

Erfahren Sie, wie der Adam-Optimierer effizientes Training neuronaler Netze mit adaptiven Lernraten, Dynamik und realen Anwendungen in der KI ermöglicht.

Adam (Adaptive Moment Estimation) ist ein beliebter und leistungsstarker Optimierungsalgorithmus, der beim maschinellen Lernen (ML) und Deep Learning (DL) eingesetzt wird. Er wurde entwickelt, um effizient die optimalen Werte für die Parameter eines Modells (seine Gewichte und Verzerrungen) zu finden, indem er sie auf der Grundlage der Trainingsdaten iterativ aktualisiert. Adam wird für seine schnelle Konvergenz und seine Effektivität bei einer Vielzahl von Problemen geschätzt und ist daher für viele Praktiker die erste Wahl, wenn es um das Training benutzerdefinierter Modelle geht. Seine Entwicklung war ein wichtiger Schritt, um das Training großer, komplexer Modelle praktikabler zu machen.

Wie Adam funktioniert

Die wichtigste Neuerung von Adam ist seine Fähigkeit, die Lernrate für jeden einzelnen Parameter anzupassen. Anstatt eine einzige, feste Lernrate für alle Gewichte im Netz zu verwenden, berechnet Adam eine individuelle Lernrate, die sich mit fortschreitendem Training anpasst. Dies wird durch die Kombination der Vorteile von zwei anderen Optimierungsmethoden erreicht: RMSProp und Momentum. Adam verfolgt zwei Hauptkomponenten: das erste Moment (den Mittelwert der Gradienten, ähnlich dem Momentum) und das zweite Moment (die unzentrierte Varianz der Gradienten). Durch diese Kombination können fundiertere Aktualisierungen vorgenommen werden, indem größere Schritte für Parameter mit konsistenten Gradienten und kleinere Schritte für Parameter mit verrauschten oder spärlichen Gradienten unternommen werden. Die Methode wird in der ursprünglichen Adam-Forschungsarbeit von Kingma und Ba ausführlich beschrieben.

Adam im Vergleich zu anderen Optimierern

Es ist hilfreich, Adam mit anderen gängigen Optimierern zu vergleichen, um seine Stärken zu verstehen.

  • Adam vs. Stochastischer Gradientenabstieg (SGD): SGD ist zwar ein grundlegender Optimierungsalgorithmus, aber er verwendet eine konstante Lernrate, die für alle Parameteraktualisierungen gilt. Dies kann dazu führen, dass er nur langsam konvergiert oder in suboptimalen "Tälern" der Verlustfunktion stecken bleibt. Adam mit seinen adaptiven Lernraten navigiert oft effizienter durch die Verlustlandschaft und konvergiert viel schneller. Einige Forschungsergebnisse deuten jedoch darauf hin, dass Modelle, die mit SGD trainiert wurden, in bestimmten Szenarien etwas besser verallgemeinern und eine Überanpassung besser vermeiden können. Die Entscheidung erfordert häufig empirische Tests, wie in den Leitfäden über Tipps zur Modellschulung erläutert.
  • AdamW: Eine beliebte und effektive Variante ist AdamW (Adam with Decoupled Weight Decay). Sie ändert die Art und Weise, wie der Gewichtsabbau - eine Regularisierungstechnik - angewendet wird, und trennt ihn vom Schritt der Gradientenaktualisierung. Dies führt häufig zu einer verbesserten Modellleistung und einer besseren Generalisierung. Implementierungen sind in den wichtigsten Frameworks wie PyTorch und TensorFlow verfügbar.

Anwendungen in der realen Welt

Dank seiner Effizienz und Robustheit eignet sich Adam für eine breite Palette von Anwendungen.

  1. Training großer Sprachmodelle (LLMs): Adam und seine Varianten sind von entscheidender Bedeutung für das Training großer Modelle in der natürlichen Sprachverarbeitung (NLP). Für Modelle wie GPT-4 oder die von Hugging Face macht es Adams Effizienz möglich, riesige Textdatenmengen aus Quellen wie Wikipedia zu verarbeiten und komplexe Sprachmuster zu lernen. Seine Fähigkeit, durch komplexe Verlustlandschaften zu navigieren, ist entscheidend für den Erfolg.
  2. Bildklassifizierung und Objekterkennung: In der Computer Vision (CV) wird Adam häufig zum Trainieren von Deep Convolutional Neural Networks (CNNs) auf großen Bilddatensätzen wie ImageNet oder COCO verwendet. Es hilft Modellen für die Bildklassifizierung und Objekterkennung, schnell zu konvergieren, was die Entwicklungs- und Hyperparameter-Abstimmungszyklen beschleunigt.

Verwendung in Ultralytics YOLO

Innerhalb des Ultralytics-Ökosystems sind Adam und seine Variante AdamW verfügbare Optimierer für das Training von Ultralytics YOLO-Modellen. Die Nutzung der adaptiven Lernraten von Adam kann die Konvergenz beim Training von Objekterkennungs-, Instanzsegmentierungs- oder Posenschätzungsmodellen wie YOLO11 oder YOLOv10 beschleunigen. Während SGD aufgrund der potenziell besseren endgültigen Verallgemeinerung häufig als Standardoptimierer für einige YOLO-Modelle empfohlen wird, bietet Adam eine robuste Alternative, die insbesondere bei anfänglichen Experimenten nützlich ist. Sie können den Optimierer und andere Trainingseinstellungen leicht konfigurieren. Tools wie Ultralytics HUB rationalisieren den Prozess und ermöglichen es Benutzern, Modelle mit verschiedenen Optimierern, einschließlich Adam, entweder lokal oder über Cloud-Training zu trainieren. Frameworks wie PyTorch und TensorFlow bieten Standardimplementierungen von Adam, die innerhalb des Ultralytics-Frameworks verwendet werden.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert