Entdecken Sie, wie Tensor Processing Units (TPUs) maschinelle Lernaufgaben wie Training, Inferenz und Objekterkennung mit unübertroffener Effizienz beschleunigen.
Eine Tensor Processing UnitTPU) ist ein speziell entwickelter anwendungsspezifischer integrierter Schaltkreis (ASIC) der von Google speziell für die Beschleunigung von maschinelles Lernen (ML) zu beschleunigen. Anders als sind TPUs von Grund auf so konzipiert, dass sie die massiven Rechenanforderungen von neuronalen neuronaler Netze zu bewältigen, insbesondere die komplexen Matrix Matrixoperationen, die während des Trainings und der Inferenz erforderlich sind. Durch die Optimierung der Hardware für diese speziellen Aufgaben bieten TPUs Durch die Optimierung der Hardware für diese speziellen Aufgaben bieten TPUs einen deutlich höheren Durchsatz und eine höhere Energieeffizienz, was sie zu einem Eckpfeiler der modernen künstlicher Intelligenz (KI) Infrastruktur in Cloud- und Edge-Umgebungen.
Die Hauptstärke einer TPU liegt in ihrer Fähigkeit, die Matrixmultiplikation, die grundlegende mathematische mathematische Operation beim Deep Learning (DL), mit unglaublicher Geschwindigkeiten durchzuführen. Während Standardprozessoren Anweisungen sequentiell oder mit begrenzter Parallelität ausführen, verwenden TPUs eine eine systolische Array-Architektur, die den Datenfluss durch Tausende von Multiplikatoren gleichzeitig fließen. Dieses Design minimiert die Speicherzugriffslatenz und maximiert die Rechendichte.
TPUs sind stark in das Google Cloud-Ökosystem integriert und bieten skalierbare Ressourcen für das Training massiver Modelle zur Verfügung. Außerdem sind sie optimiert für Frameworks wie TensorFlow und zunehmend unterstützt von PyTorchermöglicht Entwicklern die Nutzung von Hochleistungshardware zu nutzen, ohne ihre bevorzugte Programmierumgebung zu ändern.
Das Verständnis der Unterscheidung zwischen verschiedenen Verarbeitungseinheiten ist für die Optimierung von der Modellschulung und der Arbeitsabläufe für den Einsatz.
TPUs spielen eine entscheidende Rolle sowohl bei massiven Cloud-basierten Schulungen als auch bei der effizienten Edge-Bereitstellung.
Für Entwickler, die mit Computer Vision (CV) arbeiten, müssen Modelle für für Geräte mit niedrigem Stromverbrauch oft eine Konvertierung von Standardgewichten in ein mit Edge TPUs kompatibles Format erforderlich. Die Ultralytics Bibliothek rationalisiert diesen Modellbereitstellungsprozess indem sie den Benutzern ermöglicht, Modelle direkt in das TensorFlow Lite Edge TPU zu exportieren.
Dieser Prozess beinhaltet in der Regel Modellquantisierung, die die Genauigkeit der Zahlen der Zahlen (z. B. von 32-Bit-Fließkommazahlen auf 8-Bit-Ganzzahlen) reduziert wird, um die speziellen Hardwarebeschränkungen zu erfüllen und Genauigkeit beizubehalten.
from ultralytics import YOLO
# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")
# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")
Einmal exportiert, können diese Modelle für Aufgaben eingesetzt werden wie Objekterkennung auf eingebetteten Systemen eingesetzt werden, die schnelle Inferenzgeschwindigkeiten bei minimalem Stromverbrauch. Weitere Einzelheiten zu diesem Arbeitsablauf finden Sie in der Anleitung zur Edge TPU .