Erfahren Sie, wie der Adam-Optimierer mit adaptiven Lernraten, Momentum und realen Anwendungen in der KI ein effizientes Training neuronaler Netze ermöglicht.
Adam (Adaptive Moment Estimation) ist ein beliebter und leistungsstarker Optimierungsalgorithmus, der im maschinellen Lernen (ML) und Deep Learning (DL) verwendet wird. Er wurde entwickelt, um effizient die optimalen Werte für die Parameter eines Modells (seine Gewichte und Verzerrungen) zu finden, indem er diese iterativ auf der Grundlage der Trainingsdaten aktualisiert. Adam wird für seine schnelle Konvergenzgeschwindigkeit und seine Effektivität bei einer Vielzahl von Problemen sehr geschätzt, was ihn zu einer gängigen Standardwahl für viele Praktiker beim Trainieren von benutzerdefinierten Modellen macht. Seine Entwicklung war ein bedeutender Schritt, um das Training großer, komplexer Modelle praktikabler zu gestalten.
Die wichtigste Neuerung von Adam ist seine Fähigkeit, die Lernrate für jeden einzelnen Parameter anzupassen. Anstatt eine einzige, feste Lernrate für alle Gewichte im Netzwerk zu verwenden, berechnet Adam eine individuelle Lernrate, die sich im Laufe des Trainings anpasst. Dies wird erreicht, indem die Vorteile zweier anderer Optimierungsmethoden kombiniert werden: RMSProp und Momentum. Adam verfolgt zwei Hauptkomponenten: den ersten Moment (den Mittelwert der Gradienten, ähnlich dem Momentum) und den zweiten Moment (die unzentrierte Varianz der Gradienten). Diese Kombination ermöglicht es, fundiertere Aktualisierungen vorzunehmen, indem größere Schritte für Parameter mit konsistenten Gradienten und kleinere Schritte für solche mit verrauschten oder spärlichen Gradienten unternommen werden. Die Methode wird im Original Adam Research Paper von Kingma und Ba detailliert beschrieben.
Es ist hilfreich, Adam mit anderen gängigen Optimierern zu vergleichen, um seine Stärken zu verstehen.
Adams Effizienz und Robustheit machen ihn für eine Vielzahl von Anwendungen geeignet.
Innerhalb des Ultralytics-Ökosystems sind Adam und seine Variante AdamW als Optimierer für das Training von Ultralytics YOLO-Modellen verfügbar. Die Nutzung der adaptiven Lernraten von Adam kann die Konvergenz während des Trainings von Objekterkennungs-, Instanzsegmentierungs- oder Pose-Schätzungsmodellen wie YOLO11 oder YOLOv10 beschleunigen. Während SGD aufgrund der potenziell besseren finalen Generalisierung oft der Standard- und empfohlene Optimierer für einige YOLO-Modelle ist, bietet Adam eine robuste Alternative, die besonders bei anfänglichen Experimenten nützlich ist. Sie können den Optimierer und andere Trainingseinstellungen einfach konfigurieren. Tools wie Ultralytics HUB optimieren den Prozess und ermöglichen es Benutzern, Modelle mit verschiedenen Optimierern, einschließlich Adam, entweder lokal oder über Cloud-Training zu trainieren. Frameworks wie PyTorch und TensorFlow bieten Standardimplementierungen von Adam, die innerhalb des Ultralytics-Frameworks verwendet werden.