深圳Yolo 视觉
深圳
立即加入
词汇表

TPU Tensor 处理单元)

了解Tensor 处理单元 (TPU) 如何以无与伦比的效率加速机器学习任务,如训练、推理和对象检测。

Tensor 处理单元TPU)是一种定制开发的 专用集成电路 (ASIC) 设计,专门用于加速 机器学习 (ML)工作负载。与 通用处理器不同,TPU 从设计之初就是为了处理神经网络的大规模计算需求,尤其是复杂的矩阵计算需求。 神经网络的庞大计算需求,特别是在训练和推理过程中所需的复杂矩阵 训练和推理过程中所需的复杂矩阵运算。通过针对这些特定任务优化硬件,TPU 可提供 大大提高了吞吐量和能效,使其成为现代人工智能(AI)的基石。 人工智能(AI) 基础设施的基石。

结构和功能

TPU 的核心优势在于它能够以惊人的速度执行矩阵乘法,这是深度学习 (DL)TPU 的基本数学运算。 深度学习 (DL) 中的基本数学运算--矩阵乘法。 的速度执行矩阵乘法运算。标准处理器是按顺序或以有限的并行方式执行指令,而 TPU 则采用了一个 系统阵列架构,允许数据同时流经数千个乘法器。 同时通过数千个乘法器。这种设计最大限度地减少了内存访问延迟,并最大限度地提高了 计算密度。

TPU 已被大量集成到Google 生态系统中,为训练海量数据提供了 可扩展资源,用于训练大规模 基础模型。此外,它们还针对 框架进行了优化,例如 TensorFlow等框架进行了优化,并越来越多地 支持 PyTorch的支持,使开发人员能够利用 让开发人员在不改变首选编码环境的情况下利用高性能硬件。

比较处理单元:CPU、TPU和TPU

了解不同处理单元之间的区别对于优化 模型训练和部署工作流程至关重要。

  • CPU (中央处理器)计算机的 计算机的 "大脑",专为多功能而设计。CPU 擅长顺序处理和复杂逻辑 但对于人工智能所需的大量并行运算来说,CPU 的运算速度通常较慢。
  • 图形处理器(GPU ) GPU 最初是为图像渲染而设计的,具有数千个内核,可高效地执行并行任务。 任务。它们是训练多功能模型的行业标准,如 Ultralytics YOLO11等多功能机型的行业标准。 软件支持,如 NVIDIA CUDA.
  • TPU:专用加速器,以灵活性换取矩阵数学的原始性能。虽然 GPU 可胜任各种任务,而TPU 则专门用于最大限度地提高 flops(每秒浮点运算次数)。 tensor 计算,通常能为大规模人工智能提供更好的每瓦性能。

实际应用

TPU 在基于云的大规模培训和高效边缘部署中都发挥着至关重要的作用。

  1. 大型语言模型 (LLM): Google 使用庞大的 TPU 集群(称为TPU Pods)来训练巨大的 巨大的 大型语言模型 (LLM),如 PaLM 和 Gemini。数千个芯片的互联能力使这些系统能在极短的时间内处理 PB 级的训练数据。 的训练数据。 传统集群所需的时间。
  2. 边缘人工智能和物联网:在较小的范围内,边缘TPU 是专为低功耗设备设计的硬件加速器。 低功耗设备设计的硬件加速器。它能 硬件(如 Coral Dev Board 等硬件上进行实时推理,实现快速物体检测和图像 在边缘进行快速物体检测和图像分割,而无需依赖持续的互联网连接。

将Ultralytics 模型部署到边缘TPU

对于使用 计算机视觉 (CV) 的开发人员来说,在低功耗设备上部署模型 通常需要将标准权重转换为与 Edge TPU 兼容的格式。Ultralytics 库简化了模型部署过程 允许用户将模型直接导出为TensorFlow Lite EdgeTPU 格式。

这一过程通常涉及 模型量化 例如,从 32 位浮点数到 8 位整数),以适应专门的硬件限制,同时保持精度。 精度。

from ultralytics import YOLO

# Load the official YOLO11 nano model
model = YOLO("yolo11n.pt")

# Export the model to Edge TPU format (int8 quantization)
# This creates a 'yolo11n_edgetpu.tflite' file for use on Coral devices
model.export(format="edgetpu")

这些模型导出后可用于以下任务 嵌入式系统上的物体检测等任务,提供 推理速度快,功耗低。有关此工作流程的更多详情,请参阅 边缘TPU 集成指南。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入