Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

TPU Tensor Processing Unit)

Entdecken Sie, wie Tensor Processing Units (TPUs) maschinelle Lernaufgaben wie Training, Inferenz und Objekterkennung mit unübertroffener Effizienz beschleunigen.

Eine Tensor Processing UnitTPU) ist ein speziell entwickelter anwendungsspezifischer integrierter Schaltkreis (ASIC) der von Google speziell für die Beschleunigung von maschinelles Lernen (ML) zu beschleunigen. Anders als sind TPUs von Grund auf so konzipiert, dass sie die massiven Rechenanforderungen von neuronalen neuronaler Netze zu bewältigen, insbesondere die komplexen Matrix Matrixoperationen, die während des Trainings und der Inferenz erforderlich sind. Durch die Optimierung der Hardware für diese speziellen Aufgaben bieten TPUs Durch die Optimierung der Hardware für diese speziellen Aufgaben bieten TPUs einen deutlich höheren Durchsatz und eine höhere Energieeffizienz, was sie zu einem Eckpfeiler der modernen künstlicher Intelligenz (KI) Infrastruktur in Cloud- und Edge-Umgebungen.

Architektur und Funktionsweise

Die Hauptstärke einer TPU liegt in ihrer Fähigkeit, die Matrixmultiplikation, die grundlegende mathematische mathematische Operation beim Deep Learning (DL), mit unglaublicher Geschwindigkeiten durchzuführen. Während Standardprozessoren Anweisungen sequentiell oder mit begrenzter Parallelität ausführen, verwenden TPUs eine eine systolische Array-Architektur, die den Datenfluss durch Tausende von Multiplikatoren gleichzeitig fließen. Dieses Design minimiert die Speicherzugriffslatenz und maximiert die Rechendichte.

TPUs sind stark in das Google Cloud-Ökosystem integriert und bieten skalierbare Ressourcen für das Training massiver Modelle zur Verfügung. Außerdem sind sie optimiert für Frameworks wie TensorFlow und zunehmend unterstützt von PyTorchermöglicht Entwicklern die Nutzung von Hochleistungshardware zu nutzen, ohne ihre bevorzugte Programmierumgebung zu ändern.

Verarbeitungseinheiten im Vergleich: CPU, GPU und TPU

Das Verständnis der Unterscheidung zwischen verschiedenen Verarbeitungseinheiten ist für die Optimierung von der Modellschulung und der Arbeitsabläufe für den Einsatz.

  • CPU (Central Processing Unit): Das "Gehirn" des Computers, das auf Vielseitigkeit ausgelegt ist. CPUs zeichnen sich durch sequenzielle Verarbeitung und komplexe Logik aus aber sie sind im Allgemeinen langsamer für die massive parallele Mathematik, die in der KI erforderlich ist.
  • GPU (Graphics Processing Unit): Ursprünglich für das Rendering von Bildern entwickelt, verfügen GPUs über Tausende von Kernen, die sie sehr effektiv für parallele Aufgaben machen. Sie sind der Industriestandard für das Training vielseitiger Modelle wie Ultralytics YOLO11 aufgrund ihrer Flexibilität und robusten Software-Unterstützung wie NVIDIA CUDA.
  • TPU: Ein spezialisierter Beschleuniger, der Flexibilität gegen rohe Leistung in der Matrixmathematik eintauscht. Während eine GPU für eine Vielzahl von Aufgaben geeignet ist, wurde eine TPU speziell für die Maximierung von Flops (Gleitkommaoperationen pro Sekunde) speziell für für tensor zu maximieren, was oft eine bessere Leistung pro Watt für KI im großen Maßstab bietet.

Anwendungsfälle in der Praxis

TPUs spielen eine entscheidende Rolle sowohl bei massiven Cloud-basierten Schulungen als auch bei der effizienten Edge-Bereitstellung.

  1. Große Sprachmodelle (LLMs): Google verwendet riesige Cluster von TPUs, bekannt als TPU Pods, zum Trainieren immensen große Sprachmodelle (LLMs) wie PaLM und Gemini. Dank der Möglichkeit, Tausende von Chips miteinander zu verbinden, können diese Systeme Petabytes an Petabytes an Trainingsdaten in einem Bruchteil der Zeit, die für traditionellen Clustern.
  2. Edge-KI und IoT: In kleinerem Maßstab ist die Edge TPU ein Hardware-Beschleuniger, der für Geräte mit geringem Stromverbrauch. Sie ermöglicht Echtzeit-Inferenz auf Hardware wie dem Coral Dev Board und ermöglicht eine schnelle Objekterkennung und Bildsegmentierung Bildsegmentierung am Rande des Bildes, ohne auf eine ständige Internetverbindung angewiesen zu sein.

Einsatz von Ultralytics auf Edge TPU

Für Entwickler, die mit Computer Vision (CV) arbeiten, müssen Modelle für für Geräte mit niedrigem Stromverbrauch oft eine Konvertierung von Standardgewichten in ein mit Edge TPUs kompatibles Format erforderlich. Die Ultralytics Bibliothek rationalisiert diesen Modellbereitstellungsprozess indem sie den Benutzern ermöglicht, Modelle direkt in das TensorFlow Lite Edge TPU zu exportieren.

Dieser Prozess beinhaltet in der Regel Modellquantisierung, die die Genauigkeit der Zahlen der Zahlen (z. B. von 32-Bit-Fließkommazahlen auf 8-Bit-Ganzzahlen) reduziert wird, um die speziellen Hardwarebeschränkungen zu erfüllen und Genauigkeit beizubehalten.

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")

Einmal exportiert, können diese Modelle für Aufgaben eingesetzt werden wie Objekterkennung auf eingebetteten Systemen eingesetzt werden, die schnelle Inferenzgeschwindigkeiten bei minimalem Stromverbrauch. Weitere Einzelheiten zu diesem Arbeitsablauf finden Sie in der Anleitung zur Edge TPU .

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten