Glossar

Stochastic Gradient Descent (SGD)

Entdecken Sie, wie Stochastic Gradient Descent Modelle für maschinelles Lernen optimiert und so effizientes Training für große Datensätze und Deep-Learning-Aufgaben ermöglicht.

Stochastic Gradient Descent (SGD) ist ein grundlegender und weit verbreiteter Optimierungsalgorithmus im maschinellen Lernen (ML). Es handelt sich um eine iterative Methode, die zum Trainieren von Modellen verwendet wird, indem ihre internen Parameter, wie z. B. Gewichte und Verzerrungen, angepasst werden, um eine Verlustfunktion zu minimieren. Im Gegensatz zum traditionellen Gradient Descent, der den gesamten Datensatz für jede Aktualisierung verarbeitet, aktualisiert SGD die Parameter nur mit einer einzigen, zufällig ausgewählten Trainingsstichprobe. Dieser "stochastische" Ansatz beschleunigt und skaliert den Trainingsprozess erheblich, was besonders wichtig ist, wenn man mit Big Data arbeitet. Die verrauschten Aktualisierungen können dem Modell auch helfen, ungünstigen lokalen Minima in der Fehlerlandschaft zu entkommen und potenziell eine bessere Gesamtlösung zu finden.

Wie der stochastische Gradientenabstieg funktioniert

Die Grundidee hinter SGD ist die Approximation des wahren Gradienten der Verlustfunktion, der über den gesamten Datensatz berechnet wird, indem der Gradient des Verlusts für eine einzelne Stichprobe verwendet wird. Obwohl dieser Einzelstichproben-Gradient eine verrauschte Schätzung ist, ist er rechentechnisch günstig und zeigt im Durchschnitt in die richtige Richtung. Der Prozess beinhaltet die Wiederholung eines einfachen Zwei-Schritte-Zyklus für jede Trainingsstichprobe:

Gradient berechnen: Berechnen Sie den Gradienten der Verlustfunktion in Bezug auf die Parameter des Modells für ein einzelnes Trainingsbeispiel.
Update the Parameters (Aktualisieren der Parameter): Passen Sie die Parameter in der entgegengesetzten Richtung des Gradienten an, skaliert durch eine Lernrate. Dies bewegt das Modell in einen Zustand mit geringerem Fehler für diese spezifische Stichprobe.

Dieser Zyklus wird für viele Durchläufe über den gesamten Datensatz wiederholt, die als Epochen bezeichnet werden, wodurch die Leistung des Modells schrittweise verbessert wird. Die Effizienz von SGD hat es zu einem Eckpfeiler des modernen Deep Learning (DL) gemacht, und es wird von allen wichtigen Frameworks wie PyTorch und TensorFlow unterstützt.

SGD im Vergleich zu anderen Optimierern

SGD ist eine von mehreren Gradienten-basierten Optimierungsmethoden, jede mit ihren eigenen Vor- und Nachteilen.

Batch Gradient Descent: Diese Methode berechnet den Gradienten unter Verwendung des gesamten Trainingsdatensatzes. Sie bietet einen stabilen und direkten Weg zum Minimum, ist aber für große Datensätze extrem langsam und speicherintensiv, was sie für die meisten modernen Anwendungen unpraktisch macht.
Mini-Batch Gradient Descent: Dies ist ein Kompromiss zwischen Batch GD und SGD. Es aktualisiert die Parameter anhand einer kleinen, zufälligen Teilmenge (einem "Mini-Batch") der Daten. Es gleicht die Stabilität von Batch GD mit der Effizienz von SGD aus und ist der in der Praxis am häufigsten verwendete Ansatz.
Adam Optimizer: Adam ist ein adaptiver Optimierungsalgorithmus, der für jeden Parameter eine separate Lernrate verwaltet und diese im Laufe des Lernens anpasst. Er konvergiert oft schneller als SGD, aber SGD kann manchmal ein besseres Minimum finden und eine bessere Generalisierung bieten, was zur Vermeidung von Overfitting beiträgt.

Anwendungsfälle in der Praxis

SGD und seine Varianten sind entscheidend für das Training einer breiten Palette von KI-Modellen in verschiedenen Bereichen.

Echtzeit-Objekterkennungstraining: Für Modelle wie Ultralytics YOLO, die für Echtzeit-Inferenz entwickelt wurden, muss das Training effizient sein. SGD ermöglicht es Entwicklern, diese Modelle auf großen Bilddatensätzen wie COCO oder benutzerdefinierten Datensätzen zu trainieren, die über Plattformen wie Ultralytics HUB verwaltet werden. Die schnellen Aktualisierungen ermöglichen eine schnellere Konvergenz im Vergleich zu Batch GD, was für die schnelle Iteration während der Modellentwicklung und des Hyperparameter-Tunings entscheidend ist. Diese Effizienz unterstützt Anwendungen in Bereichen wie autonomen Fahrzeugen und Robotik.
Training großer Sprachmodelle (LLMs): Das Training von Modellen für die natürliche Sprachverarbeitung (NLP) umfasst oft massive Textdatensätze. SGD und seine Varianten sind unerlässlich, um diese Daten effizient zu durchlaufen und Modellen wie GPT-4 oder solchen auf Hugging Face das Erlernen von Grammatik, Kontext und Semantik zu ermöglichen. Die stochastische Natur hilft, schlechten lokalen Minima in der komplexen Loss-Landschaft zu entkommen, einer häufigen Herausforderung beim Training großer neuronalen Netze. Dieser Prozess ist grundlegend für Aufgaben wie die maschinelle Übersetzung und die Sentimentanalyse.

Stochastic Gradient Descent (SGD)

Trainieren Sie Ultralytics YOLO-Modelle, um Arbeitsabläufe in allen Branchen zu rationalisieren

Flexible Enterprise-Lizenzlösung zur Förderung Ihrer Innovationen

Trainieren Sie KI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Wie der stochastische Gradientenabstieg funktioniert

SGD im Vergleich zu anderen Optimierern

Anwendungsfälle in der Praxis

Mehr in dieser Kategorie lesen

Einsatz von Ultralytics YOLO-Modellen unter Verwendung der ExecuTorch-Integration

Die wichtigsten Highlights von Ultralytics auf der PyTorch Conference 2025

Selbstüberwachtes Lernen zur Entrauschung von Bildern

Treten Sie der Ultralytics-Community bei