Descubre cómo los detectores basados en anclas revolucionan la detección de objetos con una localización precisa, adaptabilidad a la escala y aplicaciones en el mundo real.
Los detectores basados en anclas representan un enfoque importante y fundacional dentro de la visión por ordenador (VC ) para abordar la tarea de detección de objetos. Estos modelos funcionan utilizando un conjunto predefinido de cuadros de referencia, denominados comúnmente "anclas" o "priors", que tienen tamaños y relaciones de aspecto específicos. Las anclas se distribuyen por la imagen y actúan como conjeturas o plantillas iniciales, lo que permite al modelo predecir con mayor eficacia la ubicación y la clase de los objetos, sobre todo cuando se trata de elementos de escalas y formas variables. Muchos de los primeros modelos influyentes de detección de objetos, como algunas versiones del modelo Ultralytics YOLO utilizaban esta técnica.
El concepto fundamental de los detectores basados en anclas consiste en superponer una densa cuadrícula de estas cajas de anclaje predefinidas a lo largo de la imagen de entrada en múltiples ubicaciones y escalas. Cada cuadro de anclaje corresponde a un objeto potencial con un tamaño y una forma específicos. Durante el proceso de entrenamiento del modelo, el detector aprende dos cosas principales para cada ancla: en primer lugar, clasifica si la caja de anclaje contiene un objeto relevante o un fondo; en segundo lugar, refina la posición y las dimensiones del ancla (un proceso llamado regresión) para que coincida exactamente con la caja delimitadora del objeto real.
Considera la posibilidad de detectar varios vehículos en una imagen de una calle concurrida. En lugar de analizar cada grupo de píxeles, un modelo basado en anclas utiliza plantillas de cajas predefinidas: más pequeñas para los peatones, cuadrados medianos para los coches y rectángulos más grandes para los autobuses. Estas plantillas (anclas) se colocan a lo largo de la imagen. Si un ancla se solapa significativamente con un coche, el modelo aprende a clasificarla como "coche" y ajusta las coordenadas y el tamaño del ancla para que se ajuste perfectamente al coche. Las anclas que sólo cubren la carretera o los edificios se clasifican como "fondo". Este enfoque sistemático, guiado por formas predefinidas, ayuda a gestionar la complejidad de la detección de objetos. El rendimiento se suele evaluar utilizando métricas como la Intersección sobre la Unión (IoU) y la Precisión Media (mAP).
Los detectores basados en anclas, que a menudo utilizan potentes redes neuronales convolucionales (CNN ) como columna vertebral, ofrecen claras ventajas:
Los detectores basados en anclas se han desplegado con éxito en numerosos escenarios del mundo real:
En los últimos años, los detectores sin anclas han surgido como una alternativa popular. A diferencia de los modelos basados en anclas (p. ej, Ultralytics YOLOv5), los enfoques sin anclas predicen directamente la ubicación y el tamaño de los objetos, a menudo identificando puntos clave (como los centros o las esquinas de los objetos) o prediciendo las distancias desde un punto a los límites del objeto, eliminando la necesidad de formas de anclaje predefinidas.
Las principales diferencias son:
Aunque los detectores basados en anclas como YOLOv4 tuvieron mucho éxito, muchas arquitecturas modernas, como Ultralytics YOLO11han adoptado diseños sin anclas para aprovechar sus ventajas en simplicidad y eficacia. Puedes explorar las ventajas de la detección sin anclas en YOLO11 y ver comparaciones entre distintos modelos de YOLO .
El desarrollo y despliegue de modelos de detección de objetos, basados o no en anclas, implica el uso de frameworks como PyTorch o TensorFlow y bibliotecas como OpenCV. Plataformas como Ultralytics HUB ofrecen flujos de trabajo racionalizados para entrenar modelos personalizados, gestionar conjuntos de datos y desplegar soluciones, admitiendo diversas arquitecturas de modelos. Para seguir aprendiendo, recursos como Papers With Code enumeran los modelos más avanzados, y cursos de plataformas como DeepLearning.AI cubren los conceptos básicos.