Descubra la velocidad y eficacia de los detectores de objetos de una etapa como YOLO, ideales para aplicaciones en tiempo real como la robótica y la vigilancia.
Los detectores de objetos de una etapa son una categoría de modelos de aprendizaje profundo (DL) optimizados para la velocidad y la eficiencia en tareas de visión por ordenador (CV). A diferencia de detectores de objetos de dos etapas, que que separan el proceso de detección en fases de propuesta y clasificación de regiones, las arquitecturas de una etapa realizan la detección de objetos en una sola pasada de evaluación. detección de objetos en una sola pasada de evaluación. En la tarea como un problema de regresión directa, estos modelos predicen los recuadros delimitadores y las probabilidades de clase simultáneamente a partir de las imágenes de entrada. Este enfoque simplificado permite un procesamiento mucho más rápido, lo que los convierte en la opción preferida para las aplicaciones que requieren un procesamiento mucho más rápido. para aplicaciones que requieren inferencia en tiempo real.
El núcleo de un detector de una etapa es una red neuronal convolucional (CNN) que sirve de columna vertebral para extracción de características. La red procesa toda la La red procesa toda la imagen a la vez -de ahí el nombre "Sólo se mira una vez"- y crea una cuadrícula de mapas de características. Las primeras arquitecturas de arquitecturas anteriores, como el detector de disparo único multi-caja (SSD). en cajas de anclaje predefinidas para manejar objetos de diferentes escalas. Sin embargo, las iteraciones modernas como Ultralytics YOLO11 han adoptado en gran medida diseños sin anclajes para reducir la complejidad y mejorar la generalización. El resultado suele incluir coordenadas para la localización y una de confianza que indica la probabilidad de presencia de un objeto.
La principal diferencia entre los modelos de una etapa y los de dos radica en el equilibrio entre velocidad y precisión. Las arquitecturas de dos etapas, como la familia R-CNN, suelen ofrecer mayor precisión para objetos pequeños u ocluidos, pero incurren en mayores costes computacionales debido a su proceso de múltiples pasos. Por el contrario, los detectores de una etapa dan prioridad a la baja latencia de inferencia, lo que permite hardware con recursos limitados. Avances recientes, como la evolución de YOLOv1 en el próximo YOLO26 (previsto para finales de 2025), utilizan entrenamiento de extremo a extremo de extremo a extremo y funciones de pérdida avanzadas precisión, a menudo igualando o superando los modelos de dos etapas.
La eficacia de los detectores de una etapa impulsa la innovación en numerosos sectores en los que la capacidad de respuesta inmediata es fundamental. inmediata:
Para garantizar resultados precisos, estos modelos suelen predecir múltiples cajas potenciales para un mismo objeto. Posprocesamiento como Supresión no máxima (NMS) filtran estas predicciones redundantes basándose en Intersección sobre Unión (IoU) umbrales. Implementar un detector de una etapa es sencillo con bibliotecas modernas como PyTorch y el paquete paquetePython Ultralytics .
El siguiente ejemplo muestra cómo ejecutar la inferencia utilizando un modelo YOLO11 preentrenado:
from ultralytics import YOLO
# Load the YOLO11 model, a state-of-the-art one-stage detector
model = YOLO("yolo11n.pt")
# Run inference on a local image or URL
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects with bounding boxes
results[0].show()