GPU (Graphics Processing Unit)
了解 GPU 如何加速 AI 和深度学习。探索并行计算在训练 Ultralytics YOLO26 模型和优化实时推理方面的强大能力。
图形处理器 (GPU) 是一种专门的电子电路,最初旨在加速帧缓冲区内图像的操纵和创建,以进行显示输出。虽然它们的根源在于为游戏和专业可视化渲染计算机图形,但 GPU 已经演变为现代人工智能 (AI) 的核心引擎。与使用少量强大内核按顺序处理任务的标准处理器不同,GPU 架构由数千个更小、更高效的内核组成,旨在同时处理多个任务。这种被称为并行计算的能力,使它们在支持深度学习 (DL) 和复杂神经网络 (NN) 的海量矩阵和向量运算方面表现得异常高效。
Link to this section加速 AI 工作负载#
GPU 对机器学习 (ML) 不可或缺的主要原因是它们执行高速矩阵乘法的能力。PyTorch 和 TensorFlow 等深度学习框架经过专门优化,可以利用这种硬件加速。这显著缩短了模型训练的时间,通常将原本在标准处理器上需要数周的计算缩短到在 GPU 上仅需数小时。这些设备的计算吞吐量通常以 FLOPS(每秒浮点运算次数)来衡量,这是衡量硬件处理 YOLO26 等尖端模型严苛需求能力的关键指标。
Link to this section硬件区别:GPU vs. CPU vs. TPU#
要了解硬件格局,区分 GPU 与其他处理单元非常有用:
- CPU (中央处理器):计算机的通用“大脑”。CPU 擅长顺序处理和复杂的逻辑分支,但对于大规模 AI 训练所需的海量并行处理,其效率较低。
- GPU (图形处理器):训练和推理的行业标准。NVIDIA 等领先制造商利用 CUDA 等软件生态系统,允许开发人员直接为通用计算编程 GPU。
- TPU (张量处理器):一种专门为神经网络机器学习开发的专用集成电路 (ASIC)。虽然对于特定的张量运算效率极高,但它们在处理更广泛的计算任务时不如 GPU 通用。
Link to this section实际应用#
高性能 GPU 的应用推动了各行各业的创新:
- 自动驾驶汽车:自动驾驶汽车必须每秒处理来自摄像头、雷达和 LiDAR 传感器的数 GB 数据。GPU 实现了实时推理,使车辆的机载计算机能够运行目标检测模型,从而瞬间识别行人、交通标志和障碍物。
- 医学图像分析:在医疗保健领域,GPU 加速了 MRI 和 CT 等高分辨率扫描的处理。它们使复杂的图像分割算法能够精确勾勒出肿瘤或器官,协助放射科医生做出更快、更准确的诊断,而无需仅依赖人工检查。
Link to this section使用 GPU 进行训练#
当使用 ultralytics 包时,利用 GPU 非常简单,且强烈建议将其用于高效工作流。该库支持自动设备检测,但用户也可以显式指定设备。
以下示例演示了如何在第一个可用 GPU 上训练 YOLO26 模型:
from ultralytics import YOLO
# Load the YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model on the first available GPU (device=0)
# This significantly accelerates training compared to CPU usage
results = model.train(data="coco8.yaml", epochs=5, imgsz=640, device=0)Link to this section部署与优化#
除了训练之外,GPU 在模型部署中也起着至关重要的作用。为了在推理过程中最大限度地提高效率,模型通常被转换为 TensorRT 等优化格式,它重新构建神经网络以完美匹配特定的 GPU 架构,从而减少延迟。对于无法访问高端本地硬件的开发人员,Ultralytics Platform 提供了基于云的解决方案,用于管理数据集并在强大的远程 GPU 集群上训练模型。这种可访问性推动了 边缘 AI 的创新,使复杂的计算机视觉 (CV) 任务能够在现场更小、更节能的设备上进行部署。






