深圳Yolo 视觉
深圳
立即加入
词汇表

图形处理器(GPU

了解GPU如何加速人工智能与深度学习。探索并行计算在训练Ultralytics 模型及优化实时推理中的强大效能。

图形处理器(GPU)是一种专用电子电路,最初设计用于加速帧缓冲区中图像的处理与创建,以实现显示输出。尽管其根源在于为游戏和专业可视化领域渲染计算机图形,但GPU已演变为现代人工智能(AI)的核心引擎。 与采用少数强大核心顺序处理任务的标准处理器不同GPU 由数千个小型高效核心构成,专为同时处理多项任务而设计。这种被称为并行计算的能力,使其在支撑深度学习(DL)复杂神经网络(NN)的海量矩阵与向量运算中表现出非凡效率。

加速人工智能工作负载

GPU在机器学习(ML)中不可或缺的主要原因在于其执行高速矩阵乘法的能力。诸如PyTorch等深度学习框架正是通过这种能力实现了高效的计算处理。 PyTorchTensorFlow 都针对性地优化了对这种硬件加速的利用。 这使得模型训练时间大幅缩短,通常将标准处理器上需要数周的计算任务压缩GPU数小时。这类设备的计算吞吐量通常以FLOPS(每秒浮点运算次数)为单位衡量,这是评估硬件处理YOLO26等尖端模型严苛需求的关键指标。

硬件区别:GPU vs.CPU vs.TPU

要理解硬件格局,区分GPU 处理单元很有帮助:

  • CPU 中央处理器):计算机的通用"大脑"。CPU擅长顺序处理和复杂逻辑分支,但在大规模AI训练所需的超大规模并行计算方面效率较低。
  • GPU 图形处理器):训练与推理领域的行业标准。领先制造商如 NVIDIA 等领先制造商 采用 CUDA 等技术,使开发者能够GPU 编程GPU 进行通用计算。
  • Tensor 单元TPU ): 一种 专为神经网络机器学习设计的专用集成电路(ASIC)。 虽然在特定tensor 中效率极高, 但在更广泛的计算任务中,其通用性不及GPU。

实际应用

高性能GPU的实施推动了各行各业的创新:

  • 自动驾驶汽车:自动驾驶汽车每秒需处理来自摄像头、雷达和激光雷达传感器的海量数据。GPU技术实现实时推理,使车载计算机能够即时运行物体检测模型,精准识别行人、交通标志及障碍物。
  • 医学影像分析在医疗领域,GPU可加速处理高分辨率扫描图像(如MRI和CT)。它们使复杂的图像分割算法能够精确勾勒肿瘤或器官轮廓,协助放射科医生更快、更准确地做出诊断,而无需完全依赖人工检查。

基于GPU的训练

使用时 ultralytics 该软件包GPU 简单直观,强烈推荐用于高效工作流程。该库支持自动设备检测,但用户也可手动指定设备。

以下示例演示了如何在GPU训练YOLO26模型

from ultralytics import YOLO

# Load the YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the first available GPU (device=0)
# This significantly accelerates training compared to CPU usage
results = model.train(data="coco8.yaml", epochs=5, imgsz=640, device=0)

部署与优化

除了训练之外,GPU在模型部署中也发挥着关键作用。为在推理过程中实现最高效率,模型通常会被转换为优化格式,例如 TensorRT,通过重构神经网络使其与GPU 完美适配,从而降低延迟。对于无法使用高端本地硬件的开发者Ultralytics 提供Ultralytics 解决方案,可在强大的GPU 上管理数据集并训练模型。这种可访问性推动了边缘AI的创新,使复杂的 计算机视觉(CV)任务得以部署在 更小巧、更节能的现场设备上。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入