探索 Tensor Processing Units (TPUs) 如何加速机器学习。了解如何为 Edge TPUs 和云训练优化 Ultralytics YOLO26 以实现最大速度。
张量处理单元(TPU)是Google专门设计的一种专用集成电路(ASIC),旨在加速机器学习(ML)工作负载。与处理各种计算任务的通用处理器不同,TPU从设计之初就旨在优化神经网络中基础的大规模矩阵运算。这种专注使其能够实现极高的吞吐量和能源效率,成为现代人工智能(AI)基础设施的基石,尤其是在Google Cloud生态系统中。它们在缩短复杂模型训练时间和大规模运行实时推理所需时间方面发挥着至关重要的作用。
TPU的架构与传统处理器显著不同。标准CPU(中央处理器)擅长顺序任务和复杂逻辑,GPU(图形处理器)使用并行核心进行图形和通用计算,而TPU则采用脉动阵列架构。这种设计使数据能够同时流经数千个乘法器,而无需为每个操作访问内存。通过最大化计算密度和最小化延迟,TPU特别适用于深度学习(DL)应用中大量的线性代数运算。
这种专用硬件针对 TensorFlow 等框架进行了高度优化,并日益得到 PyTorch 的支持,使开发者无需完全重写代码库即可 train 大规模 foundation models 或部署高效的边缘解决方案。
了解硬件格局对于优化 机器学习运维 (MLOps) 至关重要。
TPU被部署在各种环境中,从大型云集群到微型边缘设备。
开发者可以利用TPU加速Ultralytics模型,尤其是在使用 Ultralytics平台 进行云训练或将模型导出用于边缘部署时。例如,Edge TPU要求模型必须经过量化并专门为其架构编译。
以下示例演示了如何将YOLO26模型导出为TFLite格式,这是为Edge TPU编译之前的先决步骤:
from ultralytics import YOLO
# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")
# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)
导出后,模型可以使用 Edge TPU Compiler 进一步编译以用于 Edge TPU,使其能够在 Raspberry Pi 等设备上与 Coral USB 加速器高效运行。有关部署的更多详细信息,查阅 TFLite integration 文档会非常有帮助。

开启您的机器学习未来之旅