Descubra la velocidad y eficacia de los detectores de objetos de una etapa como YOLO, ideales para aplicaciones en tiempo real como la robótica y la vigilancia.
En el campo de la visión por ordenador (VC), en particular para la detección de objetos, la velocidad y la eficiencia son a menudo tan cruciales como la precisión. Los detectores de objetos de una etapa son una clase de modelos de aprendizaje profundo diseñados con estas prioridades en mente, que ofrecen un enfoque simplificado para identificar y localizar objetos en imágenes o vídeos. A diferencia de sus homólogos de dos etapas, los detectores de una etapa realizan la localización del objeto (determinar dónde está un objeto) y la clasificación (determinar qué es un objeto) en una sola pasada hacia adelante de la red neuronal. Este diseño los hace mucho más rápidos y adecuados para aplicaciones de inferencia en tiempo real.
Los detectores de objetos de una sola etapa se caracterizan por su diseño integral, que evita un paso independiente y de alta carga computacional para proponer regiones de interés (áreas susceptibles de contener objetos). En su lugar, tratan la detección de objetos como un problema de regresión. El modelo procesa toda la imagen de entrada una sola vez, utilizando normalmente una red troncal (a menudo una red neuronal convolucional o CNN) para la extracción de características. A continuación, estas características se introducen directamente en un cabezal de detección que predice las coordenadas de los cuadros delimitadores, las probabilidades de clase y las puntuaciones de confianza simultáneamente en toda la cuadrícula de la imagen o en las ubicaciones del mapa de características. Esta arquitectura de paso único hace hincapié en la velocidad, por lo que resulta ideal para aplicaciones en las que es esencial un procesamiento rápido. Algunos ejemplos populares son la familia de modelos Ultralytics YOLO, conocida por equilibrar velocidad y precisión (como YOLO11), y el SSD (Single Shot MultiBox Detector) desarrollado por Google Research. Muchos de los detectores modernos de una sola etapa tampoco tienen anclas, lo que simplifica aún más el proceso en comparación con los métodos antiguos basados en anclas.
La diferencia fundamental entre los detectores de objetos de una y dos etapas radica en su proceso operativo. Los detectores de dos etapas, como la influyente R-CNN (Region-based CNN) y sus sucesores, como Faster R-CNN, generan primero numerosas propuestas de regiones utilizando métodos como la búsqueda selectiva o una red de propuestas regionales (RPN). En una segunda etapa distinta, se clasifican estas propuestas y se refinan sus cuadros delimitadores. Este proceso en dos etapas suele lograr una mayor precisión, especialmente en la detección de objetos pequeños o superpuestos, pero tiene el coste de un aumento significativo del tiempo de cálculo y una menor velocidad de inferencia.
Por el contrario, los detectores de una etapa combinan estos pasos, realizando la localización y la clasificación simultáneamente en toda la imagen de una sola vez. Este enfoque unificado permite aumentar considerablemente la velocidad. Históricamente, esta ventaja de velocidad a veces suponía una contrapartida, ya que podía dar lugar a una precisión ligeramente inferior a la de los métodos de dos etapas más avanzados, sobre todo en lo que respecta a la precisión de la localización. Sin embargo, los avances en el diseño de la arquitectura, las funciones de pérdida y las estrategias de entrenamiento han permitido que los detectores modernos de una etapa, como YOLO11, reduzcan significativamente esta diferencia de rendimiento y ofrezcan comparaciones convincentes en varios puntos de referencia. El rendimiento se evalúa normalmente utilizando métricas como la precisión media (mAP) y la intersección sobre la unión (IoU).
La rapidez y eficacia de los detectores de objetos de una sola etapa los hacen inestimables en numerosos escenarios del mundo real que requieren una toma de decisiones y un procesamiento rápidos:
El desarrollo y despliegue de detectores de objetos de una etapa implica el uso de varias herramientas y plataformas. Los marcos de aprendizaje profundo como PyTorch y TensorFlow proporcionan las bibliotecas básicas. Las bibliotecas de visión por ordenador como OpenCV ofrecen funciones esenciales de procesamiento de imágenes. Ultralytics proporciona modelos Ultralytics YOLO de última generación y la plataforma Ultralytics HUB, que simplifica el entrenamiento de modelos personalizados en conjuntos de datos como COCO o sus propios datos, la gestión de experimentos y el despliegue de modelos de manera eficiente. Un entrenamiento eficaz de los modelos suele requerir un cuidadoso ajuste de los hiperparámetros y estrategias como el aumento de datos para mejorar la robustez y la generalización. Los modelos pueden exportarse a formatos como ONNX para su despliegue en diversas plataformas de hardware, incluidos los dispositivos de borde.