Descubra cómo los detectores basados en anclas revolucionan la detección de objetos con una localización precisa, adaptabilidad a escalas y aplicaciones en el mundo real.
Los detectores basados en anclas representan un enfoque significativo y fundacional dentro de la visión por ordenador (VC ) para abordar la tarea de detección de objetos. Estos modelos funcionan utilizando un conjunto predefinido de cuadros de referencia, comúnmente denominados "anclas" o "priors", que tienen tamaños y relaciones de aspecto específicos. Las anclas se distribuyen por toda la imagen y actúan como conjeturas o plantillas iniciales, lo que permite al modelo predecir con mayor eficacia la ubicación y la clase de los objetos, especialmente cuando se trata de elementos de escalas y formas variables. Muchos de los primeros modelos influyentes de detección de objetos, como algunas versiones de la familia Ultralytics YOLO, utilizaban esta técnica.
El concepto fundamental de los detectores basados en anclas consiste en superponer una densa cuadrícula de estos recuadros de anclaje predefinidos a lo largo de la imagen de entrada en múltiples ubicaciones y escalas. Cada cuadro de anclaje corresponde a un objeto potencial con un tamaño y una forma específicos. Durante el proceso de entrenamiento del modelo, el detector aprende dos cosas principales para cada ancla: en primer lugar, clasifica si la caja de anclaje contiene un objeto relevante o un fondo; en segundo lugar, refina la posición y las dimensiones del ancla (un proceso llamado regresión) para que coincida con precisión con la caja delimitadora del objeto real.
Consideremos la detección de varios vehículos en una imagen de una calle muy transitada. En lugar de analizar cada grupo de píxeles, un modelo basado en anclas utiliza plantillas de cajas predefinidas: más pequeñas para los peatones, cuadrados medianos para los coches y rectángulos más grandes para los autobuses. Estas plantillas (anclas) se colocan a lo largo de la imagen. Si un ancla se solapa significativamente con un coche, el modelo aprende a clasificarla como "coche" y ajusta las coordenadas y el tamaño del ancla para que se ajuste perfectamente al coche. Las anclas que sólo cubren la carretera o los edificios se clasifican como "fondo". Este enfoque sistemático, guiado por formas predefinidas, ayuda a gestionar la complejidad de la detección de objetos. El rendimiento suele evaluarse utilizando métricas como la intersección sobre la unión (IoU) y la precisión media (mAP).
Los detectores basados en anclas, que a menudo utilizan potentes redes neuronales convolucionales (CNN ) como columna vertebral, ofrecen claras ventajas:
Los detectores basados en anclas se han implantado con éxito en numerosos escenarios del mundo real:
En los últimos años, los detectores sin anclas han surgido como una alternativa popular. A diferencia de los modelos basados en anclas (por ejemplo, Ultralytics YOLOv5), los enfoques sin anclas predicen directamente la ubicación y el tamaño de los objetos, a menudo identificando puntos clave (como los centros o las esquinas de los objetos) o prediciendo distancias desde un punto hasta los límites del objeto, lo que elimina la necesidad de formas de anclaje predefinidas.
Las principales diferencias son:
Aunque los detectores basados en anclas como YOLOv4 tuvieron mucho éxito, muchas arquitecturas modernas, incluida Ultralytics YOLO11, han adoptado diseños sin anclas para aprovechar sus ventajas en simplicidad y eficiencia. Puede explorar las ventajas de la detección sin anclajes en YOLO11 y ver comparaciones entre distintos modelos de YOLO.
El desarrollo y despliegue de modelos de detección de objetos, basados o no en anclajes, implica el uso de marcos de trabajo como PyTorch o TensorFlow y bibliotecas como OpenCV. Plataformas como Ultralytics HUB ofrecen flujos de trabajo optimizados para el entrenamiento de modelos personalizados, la gestión de conjuntos de datos y el despliegue de soluciones, y admiten diversas arquitecturas de modelos. Para seguir aprendiendo, recursos como Papers With Code enumeran los modelos más avanzados, y cursos de plataformas como DeepLearning.AI cubren conceptos básicos.