Descubra cómo las unidades de procesamiento Tensor (TPU) aceleran las tareas de aprendizaje automático, como el entrenamiento, la inferencia y la detección de objetos, con una eficiencia inigualable.
Una unidad de procesamiento de Tensor TPU) es un circuito integrado desarrollado a medida (ASIC) diseñado por Google específicamente para acelerar cargas de trabajo de aprendizaje automático (ML). A diferencia de a diferencia de los procesadores de uso general, las TPU están diseñadas desde cero para manejar las enormes demandas computacionales de las redes neuronales, en particular las complejas matrices de las redes neuronales. las redes neuronales, en particular las complejas operaciones complejas operaciones matriciales necesarias durante el entrenamiento y la inferencia. Al optimizar el hardware para estas tareas específicas, las TPU ofrecen un rendimiento y una eficiencia energética significativamente superiores, lo que las convierte en la piedra angular de la moderna inteligencia artificial (IA) artificial moderna en entornos de nube y periféricos.
La fuerza central de una TPU reside en su capacidad para realizar la multiplicación de matrices, la operación matemática fundamental en el aprendizaje profundo (DL), a velocidades increíbles. en el aprendizaje profundo (DL), a velocidades increíbles. Mientras que los procesadores estándar ejecutan las instrucciones de forma secuencial o con un paralelismo limitado, las TPU utilizan una arquitectura de matriz sistólica que permite que los datos fluyan. arquitectura de matriz sistólica que permite que los datos fluyan a través de miles de multiplicadores simultáneamente. Este diseño minimiza la latencia de acceso a la memoria y maximiza la densidad de cálculo.
Las TPU están fuertemente integradas en el ecosistema deGoogle Cloud, proporcionando recursos escalables para entrenar modelos masivos. Además, están optimizadas para marcos de trabajo como TensorFlow y cada vez más soportados por PyTorchpermitiendo a los desarrolladores aprovechar hardware de alto rendimiento sin cambiar su entorno de codificación preferido.
Comprender la distinción entre las distintas unidades de procesamiento es vital para optimizar los flujos de trabajo de formación y despliegue de modelos.
Las TPU desempeñan un papel fundamental tanto en la formación masiva basada en la nube como en la implantación eficiente en los bordes.
Para los desarrolladores que trabajan con visión por ordenador (CV), el despliegue de modelos en dispositivos de bajo consumo suele requerir la conversión de pesos estándar a un formato compatible con las TPU Edge. La biblioteca Ultralytics agiliza este proceso de despliegue de modelos permitiendo a los usuarios exportar modelos directamente al formato TPU Edge TensorFlow Lite.
Este proceso suele implicar cuantificación del modelo, que reduce la precisión de los números (por ejemplo, de un flotante de 32 bits a un entero de 8 bits) para ajustarse a las restricciones del hardware especializado y, al mismo tiempo manteniendo la precisión.
from ultralytics import YOLO
# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")
# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")
Una vez exportados, estos modelos pueden desplegarse para tareas como detección de objetos en sistemas integrados con un consumo de energía mínimo. Para más detalles sobre este flujo de trabajo, consulte la guía sobre Integración de Edge TPU .