探索Tensor 单元(TPU)如何加速机器学习。学习如何优化Ultralytics 以实现边缘TPU和云端训练的最高速度。
Tensor 单元(TPU)是由Google 专门设计的一种专用集成电路(ASIC),旨在加速机器学习(ML)工作负载。与处理广泛计算任务的通用处理器不同,TPU从底层设计开始就致力于优化神经网络中至关重要的海量矩阵运算。 这种专注特性使其能实现极高的吞吐量和能效,成为现代人工智能(AI)基础设施的基石,尤其在Google 生态系统中发挥关键作用。无论是训练复杂模型还是大规模实时推理,TPU都能显著缩短所需时间。
TPU 的架构与传统处理器TPU 显著TPU 。CPU 中央处理器)擅长顺序任务和复杂逻辑运算,GPU 图形处理器)则TPU 并行核心处理图形和通用计算,TPU 收缩阵列架构。这种设计使数据能够同时流经数千个乘法器,无需每次操作都访问内存。 通过最大化计算密度并最小化延迟,TPU特别适用于深度学习(DL)应用中大量存在的线性代数运算。
这种专用硬件针对TensorFlow等框架进行了深度优化。 TensorFlow 等框架进行了深度优化,并正获得 PyTorch,使开发者能够训练庞大的 基础模型或部署高效的边缘 解决方案,而无需完全重写代码库。
理解硬件环境对优化机器学习运营(MLOps)至关重要。
TPU可部署于各种环境,从庞大的云集群到微型边缘设备。
开发者可利用TPU Ultralytics 尤其Ultralytics 进行云端训练或导出模型用于Ultralytics 时。例如,EdgeTPU模型需针对其架构进行量化编译。
以下示例演示了如何将YOLO26模型导出TFLite ,这是在为EdgeTPU编译前的必要步骤:
from ultralytics import YOLO
# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")
# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)
导出后,TPU EdgeTPU 将模型进一步编译为EdgeTPU ,使其能在搭载Coral USB加速器的树莓派等设备上高效运行。有关部署的更多细节,TFLite 文档将大有裨益。