了解GPU如何加速人工智能与深度学习。探索并行计算在训练Ultralytics 模型及优化实时推理中的强大效能。
图形处理器(GPU)是一种专用电子电路,最初设计用于加速帧缓冲区中图像的处理与创建,以实现显示输出。尽管其根源在于为游戏和专业可视化领域渲染计算机图形,但GPU已演变为现代人工智能(AI)的核心引擎。 与采用少数强大核心顺序处理任务的标准处理器不同GPU 由数千个小型高效核心构成,专为同时处理多项任务而设计。这种被称为并行计算的能力,使其在支撑深度学习(DL)和复杂神经网络(NN)的海量矩阵与向量运算中表现出非凡效率。
GPU在机器学习(ML)中不可或缺的主要原因在于其执行高速矩阵乘法的能力。诸如PyTorch等深度学习框架正是通过这种能力实现了高效的计算处理。 PyTorch 和 TensorFlow 都针对性地优化了对这种硬件加速的利用。 这使得模型训练时间大幅缩短,通常将标准处理器上需要数周的计算任务压缩GPU数小时。这类设备的计算吞吐量通常以FLOPS(每秒浮点运算次数)为单位衡量,这是评估硬件处理YOLO26等尖端模型严苛需求的关键指标。
要理解硬件格局,区分GPU 处理单元很有帮助:
高性能GPU的实施推动了各行各业的创新:
使用时 ultralytics 该软件包GPU 简单直观,强烈推荐用于高效工作流程。该库支持自动设备检测,但用户也可手动指定设备。
以下示例演示了如何在GPU训练YOLO26模型:
from ultralytics import YOLO
# Load the YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model on the first available GPU (device=0)
# This significantly accelerates training compared to CPU usage
results = model.train(data="coco8.yaml", epochs=5, imgsz=640, device=0)
除了训练之外,GPU在模型部署中也发挥着关键作用。为在推理过程中实现最高效率,模型通常会被转换为优化格式,例如 TensorRT,通过重构神经网络使其与GPU 完美适配,从而降低延迟。对于无法使用高端本地硬件的开发者Ultralytics 提供Ultralytics 解决方案,可在强大的GPU 上管理数据集并训练模型。这种可访问性推动了边缘AI的创新,使复杂的 计算机视觉(CV)任务得以部署在 更小巧、更节能的现场设备上。