TPU (Tensor Processing Unit)
Erkunde, wie Tensor Processing Units (TPUs) maschinelles Lernen beschleunigen. Lerne, Ultralytics YOLO26 für Edge TPUs und Cloud-Training für maximale Geschwindigkeit zu optimieren.
Eine Tensor Processing Unit (TPU) ist eine spezialisierte anwendungsspezifische integrierte Schaltung (ASIC), die von Google speziell zur Beschleunigung von Machine Learning (ML)-Workloads entwickelt wurde. Im Gegensatz zu Allzweckprozessoren, die ein breites Spektrum an Rechenaufgaben bewältigen, sind TPUs von Grund auf darauf ausgelegt, die massiven Matrixoperationen zu optimieren, die die Grundlage von neuronalen Netzen bilden. Dieser spezifische Fokus ermöglicht es ihnen, einen außergewöhnlich hohen Durchsatz und eine hohe Energieeffizienz zu erreichen, was sie zu einem Eckpfeiler moderner Künstlicher Intelligenz (AI)-Infrastrukturen macht, insbesondere innerhalb des Google Cloud-Ökosystems. Sie spielen eine entscheidende Rolle bei der Verkürzung der Zeit, die sowohl für das Training komplexer Modelle als auch für die Durchführung von Echtzeit-Inferenz in großem Maßstab benötigt wird.
Link to this sectionArchitektur und Funktionalität#
The architecture of a TPU differs significantly from traditional processors. While a standard CPU (Central Processing Unit) excels at sequential tasks and complex logic, and a GPU (Graphics Processing Unit) uses parallel cores for graphics and general computing, a TPU utilizes a systolic array architecture. This design enables data to flow through thousands of multipliers simultaneously without accessing memory for every operation. By maximizing computational density and minimizing latency, TPUs are uniquely suited for the heavy linear algebra found in deep learning (DL) applications.
Diese spezialisierte Hardware ist stark für Frameworks wie TensorFlow optimiert und wird zunehmend von PyTorch unterstützt, was es Entwicklern ermöglicht, massive Foundations-Modelle zu trainieren oder effiziente Edge-Lösungen bereitzustellen, ohne ihre Codebasen komplett umschreiben zu müssen.
Link to this sectionUnterscheidung von Prozessoreinheiten#
Das Verständnis der Hardwarelandschaft ist entscheidend für die Optimierung von Machine Learning Operations (MLOps).
- CPU: Das Allzweck-"Gehirn" eines Computers, ideal für sequenzielle Verarbeitung, Datenvorverarbeitung und die Handhabung komplexer Logik. Sie wird oft für Datenaugmentierung-Pipelines verwendet, ist aber bei schwerer Matrixmathematik langsamer.
- GPU: Ursprünglich für das Rendern von Bildern gebaut, sind GPUs aufgrund ihrer Vielseitigkeit und massiven Parallelität der Industriestandard für das Modelltraining. Sie eignen sich hervorragend zum Trainieren flexibler Modelle wie Ultralytics YOLO26.
- TPU: Ein zweckgebundener Beschleuniger, der Flexibilität gegen rohe Geschwindigkeit bei Tensoroperationen eintauscht. Er wurde entwickelt, um FLOPS (Gleitkommaoperationen pro Sekunde) speziell für Berechnungen in neuronalen Netzen zu maximieren, und bietet oft eine überlegene Leistung pro Watt für spezifische großskalierte Workloads.
Link to this sectionPraxisanwendungen#
TPUs werden in verschiedenen Umgebungen eingesetzt, von massiven Cloud-Clustern bis hin zu winzigen Edge-Geräten.
-
Training großer Sprachmodelle: Google nutzt riesige miteinander verbundene Cluster, sogenannte TPU Pods, um enorme große Sprachmodelle (LLMs) wie PaLM und Gemini zu trainieren. Diese Systeme können Petabytes an Trainingsdaten in einem Bruchteil der Zeit verarbeiten, die herkömmliche Hardware benötigen würde, was Fortschritte bei generativer AI beschleunigt.
-
Edge AI und IoT: Die Coral Edge TPU bringt diese Beschleunigung auf Geräte mit geringem Stromverbrauch. Sie ermöglicht effiziente Computer Vision (CV)-Anwendungen, wie z. B. die Durchführung von Objekterkennung an einer Fertigungslinie zur lokalen Identifizierung von Fehlern. Dies ermöglicht eine sofortige Entscheidungsfindung, ohne auf Cloud-Konnektivität angewiesen zu sein, wodurch Bandbreite und Privatsphäre geschont werden.
Link to this sectionVerwendung von TPUs mit Ultralytics#
Entwickler können die TPU-Beschleunigung für Ultralytics-Modelle nutzen, insbesondere bei der Verwendung der Ultralytics Platform für das Cloud-Training oder den Export von Modellen für die Edge-Bereitstellung. Die Edge TPU erfordert beispielsweise, dass Modelle speziell für ihre Architektur quantisiert und kompiliert werden.
Das folgende Beispiel zeigt, wie man ein YOLO26-Modell in das TFLite-Format exportiert, was ein notwendiger Schritt vor der Kompilierung für eine Edge TPU ist:
from ultralytics import YOLO
# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")
# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)Nach dem Export kann das Modell mit dem Edge TPU Compiler weiter für die Edge TPU kompiliert werden, sodass es effizient auf Geräten wie dem Raspberry Pi mit einem Coral USB Accelerator ausgeführt werden kann. Für weitere Details zur Bereitstellung kann das Durchlesen der TFLite-Integrations-Dokumentation sehr hilfreich sein.






