Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

TPU Tensor Unidad de procesamiento deTensor )

Descubra cómo las unidades de procesamiento Tensor (TPU) aceleran las tareas de aprendizaje automático, como el entrenamiento, la inferencia y la detección de objetos, con una eficiencia inigualable.

Una unidad de procesamiento de Tensor TPU) es un circuito integrado desarrollado a medida (ASIC) diseñado por Google específicamente para acelerar cargas de trabajo de aprendizaje automático (ML). A diferencia de a diferencia de los procesadores de uso general, las TPU están diseñadas desde cero para manejar las enormes demandas computacionales de las redes neuronales, en particular las complejas matrices de las redes neuronales. las redes neuronales, en particular las complejas operaciones complejas operaciones matriciales necesarias durante el entrenamiento y la inferencia. Al optimizar el hardware para estas tareas específicas, las TPU ofrecen un rendimiento y una eficiencia energética significativamente superiores, lo que las convierte en la piedra angular de la moderna inteligencia artificial (IA) artificial moderna en entornos de nube y periféricos.

Arquitectura y funcionalidad

La fuerza central de una TPU reside en su capacidad para realizar la multiplicación de matrices, la operación matemática fundamental en el aprendizaje profundo (DL), a velocidades increíbles. en el aprendizaje profundo (DL), a velocidades increíbles. Mientras que los procesadores estándar ejecutan las instrucciones de forma secuencial o con un paralelismo limitado, las TPU utilizan una arquitectura de matriz sistólica que permite que los datos fluyan. arquitectura de matriz sistólica que permite que los datos fluyan a través de miles de multiplicadores simultáneamente. Este diseño minimiza la latencia de acceso a la memoria y maximiza la densidad de cálculo.

Las TPU están fuertemente integradas en el ecosistema deGoogle Cloud, proporcionando recursos escalables para entrenar modelos masivos. Además, están optimizadas para marcos de trabajo como TensorFlow y cada vez más soportados por PyTorchpermitiendo a los desarrolladores aprovechar hardware de alto rendimiento sin cambiar su entorno de codificación preferido.

Comparación de unidades de procesamiento: CPU, GPU y TPU

Comprender la distinción entre las distintas unidades de procesamiento es vital para optimizar los flujos de trabajo de formación y despliegue de modelos.

  • CPU (Unidad Central de Proceso): El "cerebro" del ordenador, diseñado para ser versátil. Las CPU destacan en el procesamiento secuencial y la lógica compleja pero suelen ser más lentas para el cálculo paralelo masivo que requiere la IA.
  • GPU (unidad de procesamiento gráfico): Creadas originalmente para el renderizado de imágenes, las GPU cuentan con miles de núcleos que las hacen muy eficaces para tareas paralelas. paralelas. Son el estándar del sector para entrenar modelos versátiles como Ultralytics YOLO11 gracias a su flexibilidad y soporte de software como NVIDIA CUDA.
  • TPU: Un acelerador especializado que cambia flexibilidad por rendimiento bruto en matemáticas matriciales. Mientras que una GPU es ideal para una amplia variedad de tareas, una TPU está diseñada para maximizar los flops (operaciones de coma flotante por segundo) específicamente tensor , lo que a menudo proporciona un mejor rendimiento por vatio para la IA a gran escala.

Aplicaciones en el mundo real

Las TPU desempeñan un papel fundamental tanto en la formación masiva basada en la nube como en la implantación eficiente en los bordes.

  1. Grandes modelos lingüísticos (LLM): Google utiliza grandes clústeres de TPU, conocidos como TPU Pods, para entrenar inmensos grandes modelos lingüísticos (LLM) como PaLM y Gemini. La capacidad de interconectar miles de chips permite a estos sistemas procesar petabytes de petabytes de datos de entrenamiento en una fracción clústeres tradicionales.
  2. Edge AI e IoT: A menor escala, la TPU Edge es un acelerador de hardware diseñado para dispositivos de bajo consumo. Permite inferencia en tiempo real en hardware como la Coral Dev Board, lo que permite una rápida detección de objetos y segmentación de imágenes en los bordes sin depender de una conectividad constante a Internet.

Despliegue de modelos Ultralytics en TPU Edge

Para los desarrolladores que trabajan con visión por ordenador (CV), el despliegue de modelos en dispositivos de bajo consumo suele requerir la conversión de pesos estándar a un formato compatible con las TPU Edge. La biblioteca Ultralytics agiliza este proceso de despliegue de modelos permitiendo a los usuarios exportar modelos directamente al formato TPU Edge TensorFlow Lite.

Este proceso suele implicar cuantificación del modelo, que reduce la precisión de los números (por ejemplo, de un flotante de 32 bits a un entero de 8 bits) para ajustarse a las restricciones del hardware especializado y, al mismo tiempo manteniendo la precisión.

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")

Una vez exportados, estos modelos pueden desplegarse para tareas como detección de objetos en sistemas integrados con un consumo de energía mínimo. Para más detalles sobre este flujo de trabajo, consulte la guía sobre Integración de Edge TPU .

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora