Learn how GPUs accelerate AI and Deep Learning. Discover the power of parallel computing for training Ultralytics YOLO26 models and optimizing real-time inference.
Una unidad de procesamiento gráfico (GPU) es un circuito electrónico especializado diseñado originalmente para acelerar la manipulación y creación de imágenes en un búfer de fotogramas para la salida de pantalla. Aunque sus orígenes se remontan al renderizado de gráficos por ordenador para juegos y visualización profesional, las GPU han evolucionado hasta convertirse en el motor fundamental de la inteligencia artificial (IA) moderna. A diferencia de un procesador estándar que utiliza unos pocos núcleos potentes para manejar tareas de forma secuencial, GPU se compone de miles de núcleos más pequeños y eficientes diseñados para manejar múltiples tareas simultáneamente. Esta capacidad, conocida como computación paralela, las hace excepcionalmente eficientes para las operaciones masivas de matrices y vectores que sustentan el aprendizaje profundo (DL) y las complejas redes neuronales (NN).
La razón principal por la que las GPU son indispensables para el aprendizaje automático (ML) es su capacidad para realizar multiplicaciones matriciales a alta velocidad. Los marcos de aprendizaje profundo como PyTorch y TensorFlow están optimizados específicamente para aprovechar esta aceleración de hardware. Esto se traduce en una reducción significativa de los tiempos de entrenamiento de los modelos, lo que a menudo transforma lo que serían semanas de cálculo en un procesador estándar en horas en una GPU. El rendimiento computacional de estos dispositivos se mide normalmente en FLOPS (operaciones de coma flotante por segundo), una métrica crítica para evaluar la capacidad del hardware para manejar las rigurosas exigencias de modelos de última generación como YOLO26.
Para comprender el panorama del hardware, resulta útil distinguir la GPU otras unidades de procesamiento:
La implementación de GPU de alto rendimiento ha impulsado innovaciones en diversas industrias:
Al utilizar el ultralytics paquete, el uso de una GPU sencillo y muy recomendable para
flujos de trabajo eficientes. La biblioteca admite la detección automática de dispositivos, pero los usuarios también pueden especificar explícitamente el
dispositivo.
El siguiente ejemplo muestra cómo entrenar un modelo YOLO26 en la primera GPU disponible:
from ultralytics import YOLO
# Load the YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model on the first available GPU (device=0)
# This significantly accelerates training compared to CPU usage
results = model.train(data="coco8.yaml", epochs=5, imgsz=640, device=0)
Más allá del entrenamiento, las GPU desempeñan un papel crucial en la implementación de modelos. Para maximizar la eficiencia durante la inferencia, los modelos suelen convertirse a formatos optimizados como TensorRT, que reestructura la red neuronal para alinearla perfectamente con la GPU específica GPU , reduciendo así la latencia. Para los desarrolladores que no tienen acceso a hardware local de gama alta , la Ultralytics ofrece soluciones basadas en la nube para gestionar conjuntos de datos y entrenar modelos en potentes GPU remotos. Esta accesibilidad impulsa la innovación en Edge AI, permitiendo que las complejas tareas de visión por computadora (CV) en dispositivos más pequeños y eficientes energéticamente en el campo.