Découvrez comment les Tensor Processing Units (TPU) accélèrent les tâches d'apprentissage automatique telles que la formation, l'inférence et la détection d'objets avec une efficacité inégalée.
Une unité de traitement Tensor TPU est un circuit intégré spécifique à l'application (ASIC) circuit intégré spécifique à une application (ASIC) conçu par Google pour accélérer les charges de travail les charges de travail d'apprentissage automatique (ML). Contrairement aux processeurs généraux, les TPU sont conçues dès le départ pour gérer les demandes de calcul massives des réseaux neuronaux, en particulier les matrices complexes. réseaux neuronaux, en particulier les opérations matricielles matricielles complexes requises lors de l'apprentissage et de l'inférence. En optimisant le matériel pour ces tâches spécifiques, les TPU offrent débit et une efficacité énergétique nettement plus élevés, ce qui en fait la pierre angulaire de l'intelligence artificielle (IA) moderne. l'intelligence artificielle (IA) dans les environnements en nuage et en périphérie.
La force principale d'une TPU réside dans sa capacité à effectuer une multiplication matricielle, l'opération mathématique fondamentale de l'apprentissage profond (DL), à une vitesse incroyable. l'apprentissage profond (DL), à des vitesses incroyables. à des vitesses incroyables. Alors que les processeurs standard exécutent les instructions de manière séquentielle ou avec un parallélisme limité, les TPU utilisent une architecture de réseau systolique qui permet aux données de circuler librement. architecture systolique qui permet aux données de circuler données à travers des milliers de multiplicateurs simultanément. Cette conception minimise la latence d'accès à la mémoire et maximise la densité la densité de calcul.
Les TPU sont fortement intégrées dans l 'écosystèmeGoogle Cloud, fournissant des ressources évolutives pour l'entraînement de masse. des ressources évolutives pour l'entraînement de modèles de base massifs. En outre, elles sont optimisées pour des frameworks tels que TensorFlow et de plus en plus supportés par PyTorchpermettant aux développeurs d'exploiter matériel de haute performance sans changer leur environnement de codage préféré.
Il est essentiel de comprendre la distinction entre les différentes unités de traitement pour optimiser les processus de formation et de déploiement des modèles. les flux de travail de formation et de déploiement des modèles.
Les TPU jouent un rôle essentiel à la fois dans la formation massive basée sur le cloud et dans le déploiement efficace en périphérie.
Pour les développeurs travaillant dans le domaine de la vision par ordinateur (CV), le déploiement de modèles modèles sur des appareils à faible consommation nécessite souvent de convertir les poids standard dans un format compatible avec les TPU Edge. La bibliothèque Ultralytics rationalise ce processus de déploiement de modèle en permettant aux utilisateurs d'exporter des modèles directement au format TensorFlow Lite Edge TPU .
Ce processus implique généralement la quantification du modèle, qui réduit la précision des des nombres (par exemple, de 32 bits flottants à 8 bits entiers) pour s'adapter aux contraintes matérielles spécialisées tout en maintenant la précision. tout en maintenant la précision.
from ultralytics import YOLO
# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")
# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")
Une fois exportés, ces modèles peuvent être déployés pour des tâches telles que détection d'objets sur des systèmes embarqués, offrant des vitesses d'inférence rapides avec une consommation d'énergie minimale. Pour plus de détails sur ce flux de travail, consultez le guide sur l'intégration de l'Edge TPU. l 'intégration Edge TPU .