Glossar

Verteiltes Training

Beschleunigen Sie das KI-Training mit verteiltem Training! Erfahren Sie, wie Sie die Trainingszeit verkürzen, Modelle skalieren und Ressourcen für komplexe ML-Projekte optimieren können.

Verteiltes Training ist eine Technik, die im maschinellen Lernen (ML) verwendet wird, um den Modelltrainingsprozess zu beschleunigen, indem die Rechenlast auf mehrere Prozessoren verteilt wird. Diese Prozessoren, oft Graphics Processing Units (GPUs), können sich auf einem einzelnen Rechner befinden oder über mehrere Rechner in einem Netzwerk verteilt sein. Da Datensätze immer größer werden und Deep-Learning-Modelle immer komplexer, kann das Training auf einem einzelnen Prozessor eine unpraktikable Zeitspanne in Anspruch nehmen. Verteiltes Training behebt diesen Engpass und ermöglicht es, hochmoderne KI-Modelle in einem angemessenen Zeitrahmen zu entwickeln.

Wie funktioniert Distributed Training?

Verteilte Trainingsstrategien lassen sich hauptsächlich in zwei Kategorien einteilen, die auch in Kombination verwendet werden können:

Data Parallelism: Dies ist der gebräuchlichste Ansatz. Bei dieser Strategie wird das gesamte Modell auf jedem Worker (oder jeder GPU) repliziert. Der Haupt-Trainingsdatensatz wird in kleinere Teile aufgeteilt, und jedem Worker wird ein Teil zugewiesen. Jeder Worker berechnet unabhängig voneinander die Forward- und Backward-Pässe für seine Datenteilmenge, um Gradienten zu erzeugen. Diese Gradienten werden dann aggregiert und gemittelt, typischerweise durch einen Prozess wie All-Reduce, und der konsolidierte Gradient wird verwendet, um die Modellparameter auf allen Workern zu aktualisieren. Dies stellt sicher, dass jede Kopie des Modells synchronisiert bleibt.
Modellparallelität: Diese Strategie wird verwendet, wenn ein Modell zu groß ist, um in den Speicher einer einzelnen GPU zu passen. Hier wird das Modell selbst partitioniert, wobei verschiedene Schichten oder Abschnitte auf verschiedenen Workern platziert werden. Die Daten werden zwischen den Workern weitergeleitet, während sie durch die Schichten des neuronalen Netzes fließen. Dieser Ansatz ist aufgrund des hohen Kommunikationsbedarfs zwischen den Workern komplexer zu implementieren, aber für das Training massiver Modelle wie Foundation Models unerlässlich. Architekturen wie Mixture of Experts (MoE) basieren stark auf Modellparallelität.

Anwendungsfälle in der Praxis

Verteiltes Training ist grundlegend für viele moderne KI-Durchbrüche.

Training von Large-Scale Vision Modellen: Unternehmen, die fortschrittliche Computer Vision-Modelle entwickeln, wie z. B. Ultralytics YOLO11, verwenden oft massive Datensätze wie COCO oder ImageNet. Mithilfe von Datenparallelität können sie das Training auf einen Cluster von GPUs verteilen. Dies reduziert die Trainingszeit drastisch von Wochen auf nur noch Stunden oder Tage, was eine schnellere Iteration, eine umfangreichere Hyperparameter-Optimierung und letztendlich zu Modellen mit höherer Genauigkeit führt.
Entwicklung großer Sprachmodelle (LLMs): Die Erstellung von LLMs wie denen in der GPT-Serie wäre ohne verteiltes Training unmöglich. Diese Modelle enthalten Hunderte von Milliarden von Parametern und können nicht auf einem einzigen Gerät trainiert werden. Forscher verwenden einen hybriden Ansatz, der Modellparallelität zur Aufteilung des Modells auf GPUs und Datenparallelität zur effizienten Verarbeitung großer Mengen an Textdaten kombiniert. Dies ist eine Kernkomponente von Projekten wie NVIDIAs Megatron-LM.