Descubra la velocidad y la eficiencia de los detectores de objetos de una sola etapa como YOLO, ideales para aplicaciones en tiempo real como la robótica y la vigilancia.
Los detectores de objetos de una etapa son una clase de modelos de aprendizaje profundo diseñados para la velocidad y la eficiencia en la visión artificial. Realizan la localización y clasificación de objetos en una sola pasada unificada de la red neuronal. Esto contrasta con sus contrapartes más complejas, los detectores de objetos de dos etapas, que dividen la tarea en dos pasos distintos. Al tratar la detección de objetos como un problema de regresión directo, los modelos de una etapa predicen los cuadros delimitadores y las probabilidades de clase directamente a partir de las características de la imagen, lo que los hace excepcionalmente rápidos e idóneos para aplicaciones que requieren inferencia en tiempo real.
Un detector de una sola etapa procesa una imagen completa a la vez a través de una única red neuronal convolucional (CNN). La arquitectura de la red está diseñada para realizar varias tareas simultáneamente. Primero, el backbone de la red realiza la extracción de características, creando representaciones enriquecidas de la imagen de entrada a varias escalas. Estas características luego se introducen en un detection head especializado.
Este head es responsable de predecir un conjunto de bounding boxes, una puntuación de confianza para cada box que indica la presencia de un objeto, y la probabilidad de que cada objeto pertenezca a una clase específica. Todo este proceso ocurre en una sola pasada hacia adelante (forward pass), que es la clave de su alta velocidad. Técnicas como la supresión no máxima (NMS) se utilizan para filtrar las detecciones redundantes y superpuestas para producir la salida final. Los modelos se entrenan utilizando una función de pérdida especializada que combina la pérdida de localización (cuán precisa es la bounding box) y la pérdida de clasificación (cuán precisa es la predicción de la clase).
La principal distinción radica en la metodología. Los detectores de una sola etapa están construidos para la velocidad y la simplicidad, mientras que los detectores de dos etapas priorizan la precisión, aunque esta distinción es cada vez menos pronunciada con los modelos más nuevos.
Se han desarrollado varias arquitecturas influyentes de una sola etapa, cada una con contribuciones únicas:
La velocidad y la eficiencia de los detectores de una sola etapa los han hecho indispensables en numerosas aplicaciones impulsadas por la IA:
La principal ventaja de los detectores de una sola etapa es su increíble velocidad, que permite la detección de objetos en tiempo real en una variedad de hardware, incluyendo dispositivos edge AI de baja potencia como la NVIDIA Jetson o Raspberry Pi. Su arquitectura más simple, de extremo a extremo, también los hace más fáciles de entrenar e implementar utilizando frameworks como PyTorch o TensorFlow.
Históricamente, la principal limitación ha sido una menor precisión en comparación con los detectores de dos etapas, particularmente cuando se trata de objetos muy pequeños o muy ocluidos. Sin embargo, los avances recientes en la arquitectura de modelos y las técnicas de entrenamiento, como se ve en modelos como YOLO11, han cerrado significativamente esta brecha de rendimiento, ofreciendo una poderosa combinación de velocidad y alta precisión para una amplia gama de tareas de visión artificial. Plataformas como Ultralytics HUB simplifican aún más el proceso de entrenamiento de modelos personalizados para necesidades específicas.