深圳Yolo 视觉
深圳
立即加入
词汇表

TPU Tensor 处理单元)

探索Tensor 单元(TPU)如何加速机器学习。学习如何优化Ultralytics 以实现边缘TPU和云端训练的最高速度。

Tensor 单元(TPU)是由Google 专门设计的一种专用集成电路(ASIC),旨在加速机器学习(ML)工作负载。与处理广泛计算任务的通用处理器不同,TPU从底层设计开始就致力于优化神经网络中至关重要的海量矩阵运算。 这种专注特性使其能实现极高的吞吐量和能效,成为现代人工智能(AI)基础设施的基石,尤其在Google 生态系统中发挥关键作用。无论是训练复杂模型还是大规模实时推理,TPU都能显著缩短所需时间。

结构和功能

TPU 的架构与传统处理器TPU 显著TPU 。CPU 中央处理器)擅长顺序任务和复杂逻辑运算,GPU 图形处理器)则TPU 并行核心处理图形和通用计算,TPU 收缩阵列架构。这种设计使数据能够同时流经数千个乘法器,无需每次操作都访问内存。 通过最大化计算密度并最小化延迟,TPU特别适用于深度学习(DL)应用中大量存在的线性代数运算。

这种专用硬件针对TensorFlow等框架进行了深度优化。 TensorFlow 等框架进行了深度优化,并正获得 PyTorch,使开发者能够训练庞大的 基础模型或部署高效的边缘 解决方案,而无需完全重写代码库。

区分处理单元

理解硬件环境对优化机器学习运营(MLOps)至关重要。

  • CPU计算机的通用"大脑", 适用于顺序处理、数据预处理及复杂逻辑运算。 常用于数据增强管道, 但在密集矩阵运算中速度较慢。
  • GPU最初 为图像渲染而设计,如今因其多功能性和大规模 并行处理能力,已成为模型训练的行业标准。它们特别适合训练 Ultralytics 灵活模型。
  • TPU:一种专为tensor 设计的加速器,以牺牲灵活性为代价换取原始tensor 速度。其设计旨在最大化神经网络计算的浮点运算每秒次数(FLOPS),在特定大规模工作负载中通常能提供更优的每瓦性能。

实际应用

TPU可部署于各种环境,从庞大的云集群到微型边缘设备。

  1. 大型语言模型训练: Google 庞大的互联集群(称为TPU )来训练PaLM和Gemini等超大规模语言模型(LLMs)。这些系统能在传统硬件所需时间的一小部分内处理数千亿字节的训练数据,从而加速生成式人工智能的发展进程。
  2. 边缘AI与物联网: Coral EdgeTPU这种加速能力带入低功耗设备。它支持高效的计算机视觉(CV)应用,例如在生产线上运行物体检测以本地识别缺陷。这使得无需依赖云端连接即可即时决策,从而节省带宽并保护隐私。

使用UlUltralyticsytics的TPU

开发者可利用TPU Ultralytics 尤其Ultralytics 进行云端训练或导出模型用于Ultralytics 时。例如,EdgeTPU模型需针对其架构进行量化编译。

以下示例演示了如何将YOLO26模型导出TFLite ,这是在为EdgeTPU编译前的必要步骤:

from ultralytics import YOLO

# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")

# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)

导出后,TPU EdgeTPU 将模型进一步编译为EdgeTPU ,使其能在搭载Coral USB加速器的树莓派等设备上高效运行。有关部署的更多细节,TFLite 文档将大有裨益。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入