深圳Yolo 视觉
深圳
立即加入
词汇表

图形处理器(GPU

了解 GPU 如何加速AI和深度学习。探索并行计算在训练 Ultralytics YOLO26 模型和优化实时推理方面的强大功能。

图形处理器(GPU)是一种专门的电子电路,最初设计用于加速帧缓冲区中图像的处理和创建,以供显示输出。尽管其根源在于为游戏和专业可视化渲染计算机图形,但GPU已发展成为现代人工智能(AI)的基本引擎。与使用少数强大核心按顺序处理任务的标准处理器不同,GPU架构由数千个更小、更高效的核心组成,旨在同时处理多个任务。这种能力,被称为并行计算,使其在支持深度学习(DL)和复杂神经网络(NN)的大规模矩阵和向量运算方面效率极高。

加速AI工作负载

GPU对于机器学习 (ML)不可或缺的主要原因是它们能够执行高速矩阵乘法。像PyTorchTensorFlow这样的深度学习框架经过专门优化以利用这种硬件加速。这显著缩短了模型训练的时间,通常将标准处理器上数周的计算量缩短到GPU上的数小时。这些设备的计算吞吐量通常以FLOPS(每秒浮点运算次数)衡量,这是衡量硬件处理YOLO26等最先进模型严苛能力的关键指标。

硬件区别:GPU vs.CPU vs.TPU

为了理解硬件格局,区分GPU与其他处理单元会有所帮助:

  • CPU(中央处理器):计算机的通用“大脑”。CPU 擅长顺序处理和复杂逻辑分支,但对于大规模 AI 训练所需的大规模并行处理效率较低。
  • GPU(图形处理单元):训练和推理的行业标准。像NVIDIA这样的领先制造商利用CUDA等软件生态系统,允许开发人员直接对 GPU 进行通用计算编程。
  • TPU (tensor处理单元):一种专门为神经网络机器学习开发的专用集成电路 (ASIC)。虽然对特定 tensor 运算高效,但它们在更广泛的计算任务中不如 GPU 多功能。

实际应用

高性能GPU的实现推动了各行各业的创新:

  • 自动驾驶汽车:自动驾驶汽车每秒必须处理来自摄像头、雷达和激光雷达传感器的大量数据。GPU 支持实时推理,使车载计算机能够运行目标检测模型,即时识别行人、交通标志和障碍物。
  • 医学图像分析: 在医疗保健领域,GPU 加速 MRI 和 CT 等高分辨率扫描的处理。它们使复杂的 图像 segment 算法能够精确描绘肿瘤或器官,协助放射科医生做出更快、更准确的诊断,而无需完全依赖人工检查。

使用GPU进行训练

使用时 ultralytics 包中,利用GPU是直接且简单,强烈推荐用于高效的工作流程。该库支持自动设备detect,但用户也可以明确指定设备。

以下示例演示了如何在GPU训练YOLO26模型

from ultralytics import YOLO

# Load the YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the first available GPU (device=0)
# This significantly accelerates training compared to CPU usage
results = model.train(data="coco8.yaml", epochs=5, imgsz=640, device=0)

部署与优化

除了训练,GPU在模型部署中扮演着至关重要的角色。为了在推理过程中最大限度地提高效率,模型通常会被转换为TensorRT等优化格式,TensorRT会重构神经网络以完美匹配特定的GPU架构,从而降低延迟。对于无法访问高端本地硬件的开发者,Ultralytics Platform提供基于云的解决方案,用于管理数据集并在强大的远程GPU集群上训练模型。这种可访问性推动了边缘AI的创新,使得复杂的计算机视觉(CV)任务能够部署到现场更小、更节能的设备上。

让我们一起共建AI的未来!

开启您的机器学习未来之旅