Tensor Parallelism

Lerne, wie Tensor-Parallelität Gewichtsmatrizen über GPUs hinweg aufteilt, um massive Modelle zu trainieren. Erforsche, wie sie sich von der Datenparallelität bei Ultralytics unterscheidet.

Tensor-Parallelismus ist eine fortschrittliche Technik des verteilten Trainings im Bereich Machine Learning, mit der große einzelne mathematische Strukturen, sogenannte Tensoren, auf mehrere Hardware-Beschleuniger wie GPUs oder TPUs verteilt werden. Beim Training massiver Deep-Learning-Modelle kann die Anzahl der Parameter leicht die Speicherkapazität eines einzelnen Geräts überschreiten. Anstatt eine komplette neuronale Netz-Schicht auf eine GPU zu legen, zerlegt der Tensor-Parallelismus die Gewichtsmatrizen und teilt die mathematischen Operationen (wie Matrixmultiplikationen) auf mehrere Geräte in einem Cluster auf. Dies ermöglicht es dem Modell, die kombinierte Speicher- und Rechenleistung der gesamten Hardware-Konfiguration zu nutzen und parallele Berechnungen in einem Single-Program Multiple-Data (SPMD)-Paradigma auszuführen, während die Ergebnisse über Hochgeschwindigkeits-Interconnects wie NVIDIA NVLink synchronisiert werden.

Link to this sectionWie Tensor-Parallelismus funktioniert#

Das Herzstück eines neuronalen Netzes sind Matrixmultiplikationen. Der Tensor-Parallelismus verteilt diese Operationen, indem er die Matrizen entweder zeilen- oder spaltenweise aufteilt. Beispielsweise könnte in einer vollständig verbundenen Schicht oder einem Transformer-Aufmerksamkeitsmechanismus eine GPU die linke Hälfte der Matrix berechnen, während eine andere die rechte Hälfte berechnet. Nach Abschluss der parallelen Berechnungen kommunizieren die Geräte – oft unter Verwendung schneller All-Reduce-Kollektivoperationen –, um die Teilergebnisse zusammenzufassen, bevor der vollständige Tensor an die nächste Schicht weitergegeben wird. Aktuelle wissenschaftliche Fortschritte im Jahr 2025 optimieren diesen Prozess weiter durch die Einführung teilweise synchronisierter Aktivierungen, um den Kommunikations-Overhead zu reduzieren, der bei großen Rechenclustern typischerweise zu Engpässen führt.

Link to this sectionUnterscheidung verwandter Parallelisierungstechniken#

Um zu verstehen, wie sich der Tensor-Parallelismus in die breitere Landschaft des verteilten Rechnens einfügt, muss man ihn von anderen gängigen Strategien abgrenzen:

Tensor-Parallelismus vs. Modell-Parallelismus: Tensor-Parallelismus ist eine hochspezifische Unterkategorie des Modell-Parallelismus. Während sich der allgemeine Modell-Parallelismus auf das Aufteilen eines Modells auf Geräte bezieht, bezieht sich der Tensor-Parallelismus streng auf das Sharding der einzelnen Tensoren innerhalb einer einzigen Schicht.
Tensor-Parallelismus vs. Pipeline-Parallelismus: Pipeline-Parallelismus ist eine weitere Form des Modell-Parallelismus, die das Netzwerk nach Tiefe partitioniert – die ersten paar Schichten auf GPU 0, die nächsten auf GPU 1 und so weiter. Dies erzeugt sequentielle Abhängigkeiten, die als Pipeline-Bubbles bekannt sind. Der Tensor-Parallelismus teilt die Schichten selbst auf und führt sie gleichzeitig ohne sequentielle Verzögerung aus, erfordert jedoch eine wesentlich höhere Netzwerkbandbreite.
Tensor-Parallelismus vs. Datenparallelismus: Beim Datenparallelismus wird das gesamte Modell vollständig auf jeder GPU repliziert und nur der Trainingsdatensatz auf die Geräte aufgeteilt. Für hochoptimierte Architekturen wie Ultralytics YOLO26, die problemlos auf moderne GPUs passen, ist Datenparallelismus via PyTorchs DistributedDataParallel die Standardmethode. Tensor-Parallelismus ist in der Regel nur dann erforderlich, wenn die Parameter einer einzelnen Schicht den VRAM der Hardware überschreiten und dadurch Out-of-Memory (OOM)-Fehler verursachen.

Link to this sectionPraxisanwendungen#

Tensor-Parallelismus ist in modernen KI-Infrastrukturen unverzichtbar, insbesondere bei hochmodernen Architekturen, die eine massive rechnerische Skalierung erfordern:

Training von Large Language Models (LLMs): Massive Basismodelle wie Metas Llama 3 und DeepSeek V3 nutzen Frameworks wie NVIDIA Megatron-LM, um Tensor-Parallelismus zu implementieren. Da die versteckten Dimensionen und Attention-Heads dieser Modelle so groß sind, ist eine Aufteilung auf einen 8-GPU-Knoten zwingend erforderlich, um effizient zu trainieren und eine geringe Latenz bei der Echtzeit-Inferenz aufrechtzuerhalten.
Large Vision Models (LVMs) und 3D-Generierung: Während Computer Vision in Richtung massiver multimodaler Reasoning-Systeme skaliert, nutzen Forscher Tensor-Parallelismus in Kombination mit Pipeline-Parallelismus auf Diensten wie AWS SageMaker, um riesige Vision Transformer (ViTs) zu trainieren. Diese Technik ermöglicht die Verarbeitung hochauflösender Bild- und Videogenerierung, die enorme zusammenhängende Speicherblöcke erfordert.

Link to this sectionImplementierung von Tensor-Parallelismus in PyTorch#

Früher mussten Entwickler komplexe, benutzerdefinierte verteilte Logik schreiben, um Tensoren zu sharden. Kürzlich hat PyTorch DTensor (Distributed Tensor) eingeführt, das diesen Workflow nativ vereinfacht. Nachfolgend findest du ein Beispiel für das Erstellen eines zeilenweise geshardeten Tensors unter Verwendung der offiziellen PyTorch Distributed Tensor API:

import torch
from torch.distributed.device_mesh import init_device_mesh
from torch.distributed.tensor import Shard, distribute_tensor

# Initialize a 1D device mesh across 2 GPUs
mesh = init_device_mesh("cuda", (2,))

# Create a standard PyTorch tensor (e.g., representing a layer's weights)
local_tensor = torch.randn(1024, 1024)

# Distribute the tensor across the GPUs by sharding along the first dimension (row-wise)
# Each GPU now holds a (512, 1024) chunk of the original tensor
distributed_tensor = distribute_tensor(local_tensor, mesh, [Shard(0)])

print(f"Global shape: {distributed_tensor.shape}, Local shape: {distributed_tensor.to_local().shape}")

For edge-optimized vision tasks and rapid model deployment, developers typically rely on the Ultralytics Platform to automatically handle optimal hardware utilization. While multi-billion parameter foundation models require manual tensor parallelism configurations, you can efficiently scale training for models like YOLO26 using simple CLI commands out-of-the-box. This ensures maximum throughput by seamlessly utilizing native data parallelism techniques alongside robust model training tips.

Tensor Parallelism

Link to this sectionWie Tensor-Parallelismus funktioniert#

Link to this sectionUnterscheidung verwandter Parallelisierungstechniken#

Link to this sectionPraxisanwendungen#

Link to this sectionImplementierung von Tensor-Parallelismus in PyTorch#

Explore solutions

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

Lass uns gemeinsam die Zukunft der KI bauen!