Scoprite come le Tensor Processing Unit (TPU) accelerano le attività di apprendimento automatico come la formazione, l'inferenza e il rilevamento di oggetti con un'efficienza senza pari.
Un'unità di elaborazione Tensor TPU) è un circuito integrato specifico per l'applicazione (ASIC) sviluppato su misura. circuito integrato specifico per l'applicazione (ASIC) progettato da Google specificamente per accelerare l 'apprendimento automatico (ML). A differenza dei processori generici, le TPU sono state progettate da zero per gestire le enormi richieste di calcolo delle reti neurali, in particolare le complesse matrici di reti neurali, in particolare le complesse operazioni operazioni matriciali complesse richieste durante l'addestramento e l'inferenza. Grazie all'ottimizzazione dell'hardware per questi compiti specifici, le TPU offrono offrono un throughput e un'efficienza energetica significativamente più elevati, rendendole una pietra miliare della moderna intelligenza artificiale (AI) in ambienti cloud ed edge.
Il punto di forza di una TPU è la capacità di eseguire la moltiplicazione matriciale, l'operazione matematica fondamentale per il deep learning (DL), ad una velocità incredibile. operazioni matematiche fondamentali nell'apprendimento profondo (DL), a velocità velocità. Mentre i processori standard eseguono le istruzioni in modo sequenziale o con un parallelismo limitato, le TPU utilizzano un'architettura ad array sistolico che consente ai dati di fluire in modo continuo. un 'architettura ad array sistolico che consente ai dati di passare attraverso migliaia di moltiplicatori simultaneamente. Questo design riduce al minimo la latenza di accesso alla memoria e massimizza la densità di calcolo. densità di calcolo.
Le TPU sono fortemente integrate nell'ecosistema diGoogle Cloud e forniscono risorse scalabili per l'addestramento di grandi quantità di risorse scalabili per l'addestramento di modelli modelli di base. Inoltre, sono ottimizzate per framework come TensorFlow e sempre più supportati da PyTorchpermettendo agli sviluppatori di sfruttare hardware ad alte prestazioni senza cambiare l'ambiente di codifica preferito.
La comprensione della distinzione tra le diverse unità di elaborazione è fondamentale per ottimizzare i flussi di lavoro di i flussi di lavoro per l'addestramento e la distribuzione dei modelli.
Le TPU svolgono un ruolo cruciale sia nella formazione massiva basata sul cloud che nell'efficiente distribuzione ai bordi.
Per gli sviluppatori che lavorano con computer vision (CV), l'implementazione di modelli su dispositivi a dispositivi a basso consumo spesso è necessario convertire i pesi standard in un formato compatibile con le TPU Edge. La libreria Ultralytics semplifica il processo di distribuzione dei modelli consentendo agli utenti di esportare i modelli direttamente nel formato TensorFlow Lite Edge TPU .
Questo processo di solito comporta quantizzazione del modello, che riduce la precisione dei numeri (ad esempio, da un float a 32 bit a un intero a 8 bit) per adattarsi ai vincoli dell'hardware specializzato, mantenendo la precisione. hardware specializzato, mantenendo al contempo la precisione.
from ultralytics import YOLO
# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")
# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")
Una volta esportati, questi modelli possono essere utilizzati per compiti quali rilevamento di oggetti su sistemi embedded, fornendo velocità di inferenza con un consumo energetico minimo. Per maggiori dettagli su questo flusso di lavoro, consultare la guida sull'integrazione di Integrazione di Edge TPU .