深圳Yolo 视觉
深圳
立即加入
词汇表

TPU Tensor 处理单元)

探索 Tensor Processing Units (TPUs) 如何加速机器学习。了解如何为 Edge TPUs 和云训练优化 Ultralytics YOLO26 以实现最大速度。

张量处理单元(TPU)是Google专门设计的一种专用集成电路(ASIC),旨在加速机器学习(ML)工作负载。与处理各种计算任务的通用处理器不同,TPU从设计之初就旨在优化神经网络中基础的大规模矩阵运算。这种专注使其能够实现极高的吞吐量和能源效率,成为现代人工智能(AI)基础设施的基石,尤其是在Google Cloud生态系统中。它们在缩短复杂模型训练时间和大规模运行实时推理所需时间方面发挥着至关重要的作用。

结构和功能

TPU的架构与传统处理器显著不同。标准CPU(中央处理器)擅长顺序任务和复杂逻辑,GPU(图形处理器)使用并行核心进行图形和通用计算,而TPU则采用脉动阵列架构。这种设计使数据能够同时流经数千个乘法器,而无需为每个操作访问内存。通过最大化计算密度和最小化延迟,TPU特别适用于深度学习(DL)应用中大量的线性代数运算。

这种专用硬件针对 TensorFlow 等框架进行了高度优化,并日益得到 PyTorch 的支持,使开发者无需完全重写代码库即可 train 大规模 foundation models 或部署高效的边缘解决方案。

区分处理单元

了解硬件格局对于优化 机器学习运维 (MLOps) 至关重要。

  • CPU计算机的通用“大脑”,适用于顺序处理、数据预处理和处理复杂逻辑。它常用于数据增强流水线,但对于繁重的矩阵运算则较慢。
  • GPU: GPU最初为图像渲染而设计,因其多功能性和大规模并行处理能力,是模型训练的行业标准。它们非常适合训练像Ultralytics YOLO26这样的灵活模型。
  • TPU: 一种专用加速器,以牺牲灵活性换取张量运算的原始速度。它旨在最大化 FLOPS (每秒浮点运算次数),专门用于神经网络计算,通常为特定的大规模工作负载提供卓越的每瓦性能。

实际应用

TPU被部署在各种环境中,从大型云集群到微型边缘设备。

  1. 大语言模型训练:Google利用庞大的互联集群(称为TPU Pods)来训练PaLM和Gemini等巨大的大语言模型(LLM)。这些系统可以在传统硬件所需时间的一小部分内处理数PB的训练数据,从而加速生成式AI的进步。
  2. 边缘AI与物联网:Coral Edge TPU 将这种加速带到了低功耗设备上。它支持高效的 计算机视觉 (CV) 应用,例如在生产线上运行 目标检测 以本地识别缺陷。这允许即时决策,而无需依赖云连接,从而节省带宽并保护隐私。

将 TPU 与 Ultralytics 结合使用

开发者可以利用TPU加速Ultralytics模型,尤其是在使用 Ultralytics平台 进行云训练或将模型导出用于边缘部署时。例如,Edge TPU要求模型必须经过量化并专门为其架构编译。

以下示例演示了如何将YOLO26模型导出为TFLite格式,这是为Edge TPU编译之前的先决步骤:

from ultralytics import YOLO

# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")

# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)

导出后,模型可以使用 Edge TPU Compiler 进一步编译以用于 Edge TPU,使其能够在 Raspberry Pi 等设备上与 Coral USB 加速器高效运行。有关部署的更多详细信息,查阅 TFLite integration 文档会非常有帮助。

让我们一起共建AI的未来!

开启您的机器学习未来之旅