Aprenda cómo las cajas de anclaje permiten la detección de objetos basada en anclajes, priors para clasificación, regresión y NMS, con aplicaciones en conducción autónoma y comercio minorista.
Los recuadros de anclaje son un componente fundamental en muchos modelos de detección de objetos basados en anclajes, ya que sirven como un conjunto predefinido de recuadros de referencia con alturas y anchuras específicas. Estos recuadros actúan como conjeturas sobre la posible ubicación y escala de los objetos en una imagen. En lugar de buscar objetos a ciegas, los modelos utilizan estas anclas como puntos de partida, prediciendo desplazamientos para afinar su posición y tamaño hasta que coincidan con los objetos reales. Este enfoque transforma la compleja tarea de localización de objetos en un problema de regresión más manejable, en el que el modelo aprende a ajustar estas plantillas en lugar de generar recuadros desde cero.
El mecanismo principal consiste en colocar en mosaico una imagen con una densa cuadrícula de cajas de anclaje en varias posiciones. En cada posición se utilizan múltiples anclajes con diferentes escalas y relaciones de aspecto para garantizar la detección eficaz de objetos de formas y tamaños diversos. Durante el proceso de entrenamiento del modelo, la columna vertebral del detector extrae primero un mapa de características de la imagen de entrada. A continuación, la cabeza detectora utiliza estas características para realizar dos tareas para cada caja de anclaje:
El modelo utiliza métricas como la intersección sobre la unión (IoU) para determinar qué cajas de anclaje coinciden mejor con los objetos reales durante el entrenamiento. Tras la predicción, se aplica un paso de posprocesamiento denominado supresión no máxima (NMS) para eliminar los recuadros redundantes y superpuestos del mismo objeto.
Es importante distinguir las cajas de anclaje de los términos relacionados en visión por ordenador:
El enfoque estructurado de las cajas de anclaje las hace eficaces en escenarios en los que los objetos tienen formas y tamaños predecibles.
Estos modelos suelen desarrollarse utilizando potentes marcos de aprendizaje profundo como PyTorch y TensorFlow. Para seguir aprendiendo, plataformas como DeepLearning.AI ofrecen cursos completos sobre fundamentos de visión por ordenador.