Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

TPU Tensor Processing Unit)

Découvrez comment les Tensor Processing Units (TPU) accélèrent les tâches d'apprentissage automatique telles que la formation, l'inférence et la détection d'objets avec une efficacité inégalée.

Une unité de traitement Tensor TPU est un circuit intégré spécifique à l'application (ASIC) circuit intégré spécifique à une application (ASIC) conçu par Google pour accélérer les charges de travail les charges de travail d'apprentissage automatique (ML). Contrairement aux processeurs généraux, les TPU sont conçues dès le départ pour gérer les demandes de calcul massives des réseaux neuronaux, en particulier les matrices complexes. réseaux neuronaux, en particulier les opérations matricielles matricielles complexes requises lors de l'apprentissage et de l'inférence. En optimisant le matériel pour ces tâches spécifiques, les TPU offrent débit et une efficacité énergétique nettement plus élevés, ce qui en fait la pierre angulaire de l'intelligence artificielle (IA) moderne. l'intelligence artificielle (IA) dans les environnements en nuage et en périphérie.

Architecture et fonctionnalité

La force principale d'une TPU réside dans sa capacité à effectuer une multiplication matricielle, l'opération mathématique fondamentale de l'apprentissage profond (DL), à une vitesse incroyable. l'apprentissage profond (DL), à des vitesses incroyables. à des vitesses incroyables. Alors que les processeurs standard exécutent les instructions de manière séquentielle ou avec un parallélisme limité, les TPU utilisent une architecture de réseau systolique qui permet aux données de circuler librement. architecture systolique qui permet aux données de circuler données à travers des milliers de multiplicateurs simultanément. Cette conception minimise la latence d'accès à la mémoire et maximise la densité la densité de calcul.

Les TPU sont fortement intégrées dans l 'écosystèmeGoogle Cloud, fournissant des ressources évolutives pour l'entraînement de masse. des ressources évolutives pour l'entraînement de modèles de base massifs. En outre, elles sont optimisées pour des frameworks tels que TensorFlow et de plus en plus supportés par PyTorchpermettant aux développeurs d'exploiter matériel de haute performance sans changer leur environnement de codage préféré.

Comparaison des unités de traitement : CPU, GPU et TPU

Il est essentiel de comprendre la distinction entre les différentes unités de traitement pour optimiser les processus de formation et de déploiement des modèles. les flux de travail de formation et de déploiement des modèles.

  • CPU (Central Processing Unit): Le "cerveau" de l'ordinateur, conçu pour être polyvalent. "cerveau" de l'ordinateur, conçu pour être polyvalent. Les unités centrales de traitement excellent dans le traitement séquentiel et la logique complexe. mais sont généralement plus lentes pour les calculs parallèles massifs requis par l'IA.
  • GPU (unité de traitement graphique): Conçus à l'origine pour le rendu d'images, les GPU sont dotés de milliers de cœurs qui les rendent très efficaces pour les tâches parallèles. parallèles. Ils constituent la norme industrielle pour l'entraînement de modèles polyvalents tels que le Ultralytics YOLO11 en raison de leur flexibilité et de leur robustesse. logiciels robustes tels que NVIDIA CUDA.
  • TPU: Un accélérateur spécialisé qui échange sa flexibilité contre des performances brutes en mathématiques matricielles. Alors qu'un GPU est idéal pour une grande variété de tâches, une TPU est conçue pour maximiser les flops (opérations en virgule flottante par seconde). flops (opérations en virgule flottante par seconde) spécifiquement pour les calculs tensor , ce qui permet souvent d'obtenir de meilleures performances par watt pour l'IA à grande échelle.

Applications concrètes

Les TPU jouent un rôle essentiel à la fois dans la formation massive basée sur le cloud et dans le déploiement efficace en périphérie.

  1. Grands modèles linguistiques (LLM) : Google utilise de vastes grappes de TPU, connues sous le nom de TPU Pods, pour former d'immenses modèles linguistiques. d'immenses d 'immenses modèles de langage (LLM ) tels que PaLM et Gemini. La capacité d'interconnecter des milliers de puces permet à ces systèmes de traiter des pétaoctets de données d'apprentissage en une fraction du temps. pétaoctets de données d'entraînement en une fraction du temps requis par les clusters traditionnels. clusters traditionnels.
  2. Edge AI et IoT : À plus petite échelle, l'Edge TPU est un accélérateur matériel conçu pour les appareils à faible consommation. appareils à faible consommation d'énergie. Il permet l'inférence en temps réel sur du matériel Coral Dev Board, permettant la détection rapide d'objets et la segmentation d'images à la périphérie sans dépendre d'une connectivité internet constante. détection rapide d'objets et la segmentation d'images à la périphérie sans dépendre d'une connectivité internet constante.

Déploiement des modèles Ultralytics sur les TPU Edge

Pour les développeurs travaillant dans le domaine de la vision par ordinateur (CV), le déploiement de modèles modèles sur des appareils à faible consommation nécessite souvent de convertir les poids standard dans un format compatible avec les TPU Edge. La bibliothèque Ultralytics rationalise ce processus de déploiement de modèle en permettant aux utilisateurs d'exporter des modèles directement au format TensorFlow Lite Edge TPU .

Ce processus implique généralement la quantification du modèle, qui réduit la précision des des nombres (par exemple, de 32 bits flottants à 8 bits entiers) pour s'adapter aux contraintes matérielles spécialisées tout en maintenant la précision. tout en maintenant la précision.

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")

Une fois exportés, ces modèles peuvent être déployés pour des tâches telles que détection d'objets sur des systèmes embarqués, offrant des vitesses d'inférence rapides avec une consommation d'énergie minimale. Pour plus de détails sur ce flux de travail, consultez le guide sur l'intégration de l'Edge TPU. l 'intégration Edge TPU .

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant