Descubra cómo los detectores basados en anclas revolucionan la detección de objetos con una localización precisa, adaptabilidad de escala y aplicaciones en el mundo real.
Los detectores basados en anclas son una clase fundamental de modelos de detección de objetos en visión artificial. Estos modelos operan utilizando un conjunto predefinido de cajas, conocidas como cajas de anclaje, para identificar y localizar objetos dentro de una imagen. Las cajas de anclaje son esencialmente una cuadrícula de plantillas con varios tamaños y relaciones de aspecto que se distribuyen por toda la imagen. El modelo predice cómo desplazar y escalar estas anclas para que coincidan con los cuadros delimitadores reales de los objetos, junto con una puntuación de confianza que indica la presencia de un objeto. Este enfoque simplifica el problema de encontrar objetos convirtiéndolo en una tarea de regresión y clasificación en relación con estas anclas fijas.
Entre los ejemplos destacados de arquitecturas basadas en anclajes se incluyen la familia R-CNN, como Faster R-CNN, y los primeros detectores de una sola etapa como SSD (Single Shot MultiBox Detector) y muchos modelos YOLO, incluido el exitoso Ultralytics YOLOv5.
La idea central detrás de la detección basada en anclajes es utilizar un conjunto de cuadros de referencia predefinidos como punto de partida. Durante el proceso de entrenamiento del modelo, el detector aprende a realizar dos tareas principales para cada cuadro de anclaje:
Estas predicciones las realiza el cabezal de detección del modelo después de procesar las características de la imagen extraídas por el backbone. Dado que un solo objeto puede ser detectado por múltiples anchor boxes, se utiliza un paso de post-procesamiento llamado Non-Maximum Suppression (NMS) para filtrar las detecciones redundantes y mantener solo el bounding box que mejor se ajuste. El rendimiento de estos modelos se evalúa a menudo utilizando métricas como mean Average Precision (mAP) e Intersection over Union (IoU).
En los últimos años, los detectores sin anclaje han surgido como una alternativa popular. A diferencia de los modelos basados en anclajes, los enfoques sin anclajes predicen las ubicaciones y los tamaños de los objetos directamente, a menudo identificando puntos clave (como los centros o las esquinas de los objetos) o prediciendo las distancias desde un punto a los límites del objeto, eliminando la necesidad de formas de anclaje predefinidas.
Las diferencias clave incluyen:
Si bien los detectores basados en anclajes como YOLOv4 tuvieron mucho éxito, muchas arquitecturas modernas, incluido Ultralytics YOLO11, han adoptado diseños sin anclajes para aprovechar sus ventajas en simplicidad y eficiencia. Puede explorar las ventajas de la detección sin anclajes en YOLO11 y ver comparaciones entre diferentes modelos de YOLO.
Los detectores basados en anclas se utilizan ampliamente en diversas aplicaciones donde los objetos tienen formas y tamaños relativamente estándar.
El desarrollo y la implementación de modelos de detección de objetos, ya sean basados en anclas o sin anclas, implica el uso de frameworks como PyTorch o TensorFlow y bibliotecas como OpenCV. Plataformas como Ultralytics HUB ofrecen flujos de trabajo optimizados para el entrenamiento de modelos personalizados, la gestión de conjuntos de datos y la implementación de soluciones, lo que permite el soporte de diversas arquitecturas de modelos. Para seguir aprendiendo, recursos como Papers With Code enumeran modelos de última generación, y los cursos de plataformas como DeepLearning.AI cubren conceptos fundamentales.