了解 GPU 如何加速AI和深度学习。探索并行计算在训练 Ultralytics YOLO26 模型和优化实时推理方面的强大功能。
图形处理器(GPU)是一种专门的电子电路,最初设计用于加速帧缓冲区中图像的处理和创建,以供显示输出。尽管其根源在于为游戏和专业可视化渲染计算机图形,但GPU已发展成为现代人工智能(AI)的基本引擎。与使用少数强大核心按顺序处理任务的标准处理器不同,GPU架构由数千个更小、更高效的核心组成,旨在同时处理多个任务。这种能力,被称为并行计算,使其在支持深度学习(DL)和复杂神经网络(NN)的大规模矩阵和向量运算方面效率极高。
GPU对于机器学习 (ML)不可或缺的主要原因是它们能够执行高速矩阵乘法。像PyTorch和TensorFlow这样的深度学习框架经过专门优化以利用这种硬件加速。这显著缩短了模型训练的时间,通常将标准处理器上数周的计算量缩短到GPU上的数小时。这些设备的计算吞吐量通常以FLOPS(每秒浮点运算次数)衡量,这是衡量硬件处理YOLO26等最先进模型严苛能力的关键指标。
为了理解硬件格局,区分GPU与其他处理单元会有所帮助:
高性能GPU的实现推动了各行各业的创新:
使用时 ultralytics 包中,利用GPU是直接且简单,强烈推荐用于高效的工作流程。该库支持自动设备detect,但用户也可以明确指定设备。
以下示例演示了如何在GPU训练YOLO26模型:
from ultralytics import YOLO
# Load the YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model on the first available GPU (device=0)
# This significantly accelerates training compared to CPU usage
results = model.train(data="coco8.yaml", epochs=5, imgsz=640, device=0)
除了训练,GPU在模型部署中扮演着至关重要的角色。为了在推理过程中最大限度地提高效率,模型通常会被转换为TensorRT等优化格式,TensorRT会重构神经网络以完美匹配特定的GPU架构,从而降低延迟。对于无法访问高端本地硬件的开发者,Ultralytics Platform提供基于云的解决方案,用于管理数据集并在强大的远程GPU集群上训练模型。这种可访问性推动了边缘AI的创新,使得复杂的计算机视觉(CV)任务能够部署到现场更小、更节能的设备上。

开启您的机器学习未来之旅