了解Tensor 处理单元 (TPU) 如何以无与伦比的效率加速机器学习任务,如训练、推理和对象检测。
Tensor 处理单元TPU)是一种定制开发的 专用集成电路 (ASIC) 设计,专门用于加速 机器学习 (ML)工作负载。与 通用处理器不同,TPU 从设计之初就是为了处理神经网络的大规模计算需求,尤其是复杂的矩阵计算需求。 神经网络的庞大计算需求,特别是在训练和推理过程中所需的复杂矩阵 训练和推理过程中所需的复杂矩阵运算。通过针对这些特定任务优化硬件,TPU 可提供 大大提高了吞吐量和能效,使其成为现代人工智能(AI)的基石。 人工智能(AI) 基础设施的基石。
TPU 的核心优势在于它能够以惊人的速度执行矩阵乘法,这是深度学习 (DL)TPU 的基本数学运算。 深度学习 (DL) 中的基本数学运算--矩阵乘法。 的速度执行矩阵乘法运算。标准处理器是按顺序或以有限的并行方式执行指令,而 TPU 则采用了一个 系统阵列架构,允许数据同时流经数千个乘法器。 同时通过数千个乘法器。这种设计最大限度地减少了内存访问延迟,并最大限度地提高了 计算密度。
TPU 已被大量集成到Google 生态系统中,为训练海量数据提供了 可扩展资源,用于训练大规模 基础模型。此外,它们还针对 框架进行了优化,例如 TensorFlow等框架进行了优化,并越来越多地 支持 PyTorch的支持,使开发人员能够利用 让开发人员在不改变首选编码环境的情况下利用高性能硬件。
了解不同处理单元之间的区别对于优化 模型训练和部署工作流程至关重要。
TPU 在基于云的大规模培训和高效边缘部署中都发挥着至关重要的作用。
对于使用 计算机视觉 (CV) 的开发人员来说,在低功耗设备上部署模型 通常需要将标准权重转换为与 Edge TPU 兼容的格式。Ultralytics 库简化了模型部署过程 允许用户将模型直接导出为TensorFlow Lite EdgeTPU 格式。
这一过程通常涉及 模型量化 例如,从 32 位浮点数到 8 位整数),以适应专门的硬件限制,同时保持精度。 精度。
from ultralytics import YOLO
# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")
# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")
这些模型导出后可用于以下任务 嵌入式系统上的物体检测等任务,提供 推理速度快,功耗低。有关此工作流程的更多详情,请参阅 边缘TPU 集成指南。

