Triff YOLO26: Vision-KI der nächsten Generation.
Ultralytics
Zurück zum Ultralytics Glossar

Tensor Parallelism

Erfahre, wie Tensor-Parallelität Gewichtsmatrizen über GPUs hinweg verteilt, um riesige Modelle zu trainieren. Entdecke den Unterschied zur Datenparallelität mit Ultralytics.

Tensor Parallelism ist eine fortschrittliche Technik des distributed training, die im maschinellen Lernen verwendet wird, um große einzelne mathematische Strukturen, sogenannte Tensoren, auf mehrere Hardware-Beschleuniger wie GPUs oder TPUs aufzuteilen. Beim Training massiver deep learning Modelle kann die Parameteranzahl leicht die Speicherkapazität eines einzelnen Geräts überschreiten. Anstatt eine vollständige neural network Schicht auf einer GPU zu platzieren, fragmentiert Tensor Parallelism die Gewichtsmatrizen und teilt die mathematischen Operationen (wie Matrixmultiplikationen) auf mehrere Geräte in einem Cluster auf. Dies ermöglicht es dem Modell, die kombinierte Speicher- und Rechenleistung des gesamten Hardware-Setups zu nutzen, wobei parallele Berechnungen in einem Single-Program Multiple-Data (SPMD)-Paradigma ausgeführt werden, während die Ergebnisse über Hochgeschwindigkeitsverbindungen wie NVIDIA NVLink synchronisiert werden.

Link to this sectionWie Tensor Parallelism funktioniert#

Im Kern eines neuronalen Netzwerks stehen Matrixmultiplikationen. Tensor Parallelism verteilt diese Operationen durch das zeilen- oder spaltenweise Teilen der Matrizen. Beispielsweise könnte in einer vollständig verbundenen Schicht oder einem transformer Aufmerksamkeitsmechanismus eine GPU die linke Hälfte der Matrix berechnen, während eine andere die rechte Hälfte berechnet. Nachdem die parallelen Berechnungen abgeschlossen sind, kommunizieren die Geräte – oft unter Verwendung schneller All-Reduce collective operations –, um die Teilergebnisse zu aggregieren, bevor der vollständige Tensor an die nächste Schicht weitergegeben wird. Jüngste akademische Fortschritte im Jahr 2025 optimieren diesen Prozess weiter durch die Einführung teilweise synchronisierter Aktivierungen, um den Kommunikations-Overhead zu reduzieren, der typischerweise große Rechencluster ausbremst.

Link to this sectionUnterscheidung verwandter Parallelisierungstechniken#

Um zu verstehen, wie sich Tensor Parallelism in die breitere Landschaft des verteilten Rechnens einfügt, muss man ihn von anderen gängigen Strategien unterscheiden:

  • Tensor Parallelism vs. Model Parallelism: Tensor Parallelism ist eine sehr spezifische Unterkategorie des Model Parallelism. Während sich Model Parallelism allgemein auf das Aufteilen eines Modells auf Geräte bezieht, bezieht sich Tensor Parallelism strikt auf das Sharding der einzelnen Tensoren innerhalb einer einzigen Schicht.
  • Tensor Parallelism vs. Pipeline Parallelism: Pipeline Parallelism ist eine weitere Form des Model Parallelism, die das Netzwerk nach Tiefe partitioniert – wobei die ersten paar Schichten auf GPU 0, die nächsten auf GPU 1 usw. platziert werden. Dies erzeugt sequenzielle Abhängigkeiten, die als Pipeline-Bubbles bekannt sind. Tensor Parallelism teilt die Schichten selbst und führt sie gleichzeitig ohne sequenzielle Verzögerung aus, erfordert jedoch eine viel höhere Netzwerkbandbreite.
  • Tensor Parallelism vs. Data Parallelism: Beim Data Parallelism wird das gesamte Modell vollständig auf jede GPU repliziert und nur der Trainingsdatensatz wird über die Geräte verteilt. Für hochoptimierte Architekturen wie Ultralytics YOLO26, die problemlos auf moderne GPUs passen, ist Data Parallelism über PyTorchs DistributedDataParallel die Standardmethode. Tensor Parallelism ist normalerweise nur dann erforderlich, wenn die Parameter einer einzelnen Schicht den VRAM der Hardware überschreiten, was zu Out-of-Memory (OOM)-Fehlern führt.

Link to this sectionAnwendungen in der Praxis#

Tensor Parallelism ist in modernen KI-Infrastrukturen unverzichtbar, insbesondere für modernste Architekturen, die massive Rechenkapazitäten erfordern:

Link to this sectionImplementierung von Tensor Parallelism in PyTorch#

In der Vergangenheit mussten Ingenieure komplexe, benutzerdefinierte verteilte Logik schreiben, um Tensoren zu fragmentieren. Kürzlich hat PyTorch DTensor (Distributed Tensor) eingeführt, das diesen Workflow nativ vereinfacht. Unten findest du ein Beispiel für die Erstellung eines zeilenweise fragmentierten Tensors unter Verwendung der offiziellen PyTorch Distributed Tensor API:

import torch
from torch.distributed.device_mesh import init_device_mesh
from torch.distributed.tensor import Shard, distribute_tensor

# Initialize a 1D device mesh across 2 GPUs
mesh = init_device_mesh("cuda", (2,))

# Create a standard PyTorch tensor (e.g., representing a layer's weights)
local_tensor = torch.randn(1024, 1024)

# Distribute the tensor across the GPUs by sharding along the first dimension (row-wise)
# Each GPU now holds a (512, 1024) chunk of the original tensor
distributed_tensor = distribute_tensor(local_tensor, mesh, [Shard(0)])

print(f"Global shape: {distributed_tensor.shape}, Local shape: {distributed_tensor.to_local().shape}")

Für Edge-optimierte Vision-Aufgaben und schnelles model deployment verlassen sich Entwickler normalerweise auf die Ultralytics Platform, um die optimale Hardware-Auslastung automatisch zu handhaben. Während Basismodelle mit mehreren Milliarden Parametern manuelle Tensor-Parallelism-Konfigurationen erfordern, kannst du das Training für Modelle wie YOLO26 mithilfe einfacher CLI commands effizient skalieren. Dies sorgt für maximalen Durchsatz, indem native Data-Parallelism-Techniken nahtlos neben robusten model training tips genutzt werden.

Explore solutions

Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Unterstütze Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI im Automobilbereich

Wende Computer Vision im Automobilbereich mit Ultralytics YOLO Modellen an. Vision AI verbessert die Straßensicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Erstelle Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Betreibe intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien an.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision-KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Echtzeit-Lagersicherheitsüberwachung.

Mehr erfahren
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Unterstütze Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI im Automobilbereich

Wende Computer Vision im Automobilbereich mit Ultralytics YOLO Modellen an. Vision AI verbessert die Straßensicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Erstelle Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Betreibe intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien an.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision-KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Echtzeit-Lagersicherheitsüberwachung.

Mehr erfahren
Real-time AI tailored to your operation

KI in der Landwirtschaft

Bringe Vision AI mit Ultralytics YOLO Modellen in die smarte Landwirtschaft. Unterstütze Ernteüberwachung, Viehverfolgung und Präzisionslandwirtschaft für höhere, intelligentere Erträge.

Mehr erfahren
Real-time AI that works with your operation

KI im Automobilbereich

Wende Computer Vision im Automobilbereich mit Ultralytics YOLO Modellen an. Vision AI verbessert die Straßensicherheit, Fahrerassistenz und Fahrzeugautomatisierung für intelligentere Straßen.

Mehr erfahren
Real-time AI that works with your team

KI im Gesundheitswesen

Erstelle Gesundheitslösungen mit Ultralytics YOLO Modellen. Vision KI im Gesundheitswesen ermöglicht schnellere medizinische Bildgebung, intelligentere Diagnostik und Patientenüberwachung.

Mehr erfahren
Real-time AI that works with your team

KI im Einzelhandel

Erfinde den Einzelhandel neu mit Ultralytics YOLO Modellen. Vision KI ermöglicht Bestandsverfolgung, Regalüberwachung, Warteschlangenmanagement und intelligentere Kundeneinblicke.

Mehr erfahren
Real-time AI that works with your team

KI in der Robotik

Betreibe intelligentere Maschinen mit Ultralytics YOLO Modellen. Vision AI in der Robotik ermöglicht autonome Navigation, Wahrnehmung, Objektverfolgung und Echtzeitsteuerung.

Mehr erfahren
Real-time AI that works with your team

KI in der Fertigung

Optimiere die Fertigung mit Ultralytics YOLO Modellen. Vision AI treibt Qualitätskontrolle, Fehlererkennung, PSA-Einhaltung und die Automatisierung von Montagelinien an.

Mehr erfahren
Real-time AI that works with your team

KI in der Logistik

Optimiere die Logistik mit Ultralytics YOLO-Modellen. Vision-KI ermöglicht Paketinspektion, Sortierung, Fahrzeugverfolgung und Echtzeit-Lagersicherheitsüberwachung.

Mehr erfahren

Lass uns gemeinsam die Zukunft der KI bauen!

Beginne deine Reise mit der Zukunft des maschinellen Lernens