Aprenda cómo las cajas de anclaje permiten la detección de objetos basada en anclajes, priors para clasificación, regresión y NMS, con aplicaciones en conducción autónoma y comercio minorista.
Las cajas de anclaje son un concepto básico en la arquitectura de muchos modelos de detección de objetos. modelos de detección de objetos, actuando como predefinidas para predecir la ubicación y el tamaño de los objetos. En lugar de escanear una imagen en busca de objetos de dimensiones arbitrarias, el modelo utiliza estas formas fijas -definidas por alturas y anchuras específicas- como puntos de partida, o priores. Este enfoque simplifica el proceso de aprendizaje transformando la difícil tarea de predecir las coordenadas absolutas en una regresión más manejable. en un problema de regresión más manejable en el que la red aprende a ajustar, o "compensar", estas plantillas para que se ajusten a los objetos reales. para ajustarse a los objetos reales. Esta técnica técnica ha sido fundamental para el éxito de arquitecturas populares como la familia Faster R-CNN y los primeros detectores de una sola etapa.
El mecanismo de las cajas de anclaje consiste en embaldosar la imagen de entrada con una cuadrícula densa de centros. En cada celda de la cuadrícula se generan varias cajas de anclaje con diferentes para acomodar objetos de diferentes formas, como peatones altos o vehículos anchos. Durante la fase de Durante la fase de entrenamiento del modelo, el sistema objetos reales utilizando una métrica denominada Intersección sobre Unión (IoU). Los anclajes que se solapan significativamente con un objeto objetivo se etiquetan como muestras positivas.
La columna vertebral del detector extrae características de la imagen, que la cabeza detectora utiliza para realizar dos tareas paralelas para cada ancla positiva:
Para tratar las predicciones superpuestas de un mismo objeto, se utiliza un paso de posprocesamiento conocido como Supresión no máxima (NMS) filtra cajas redundantes, reteniendo sólo la de mayor confianza. Marcos como PyTorch y TensorFlow proporcionan las herramientas computacionales implementar estas complejas operaciones de forma eficiente.
Para entender los cuadros de anclaje hay que distinguirlos de términos similares dentro de la visión por ordenador (CV).
La naturaleza estructurada de las cajas de anclaje las hace especialmente eficaces en entornos en los que las formas de los objetos son consistentes y predecibles.
Mientras que los modelos modernos, como YOLO11 , no tienen anclajes, las iteraciones anteriores, como YOLOv5 , utilizan cajas de anclaje. El sitio
ultralytics abstrae esta complejidad, lo que permite a los usuarios ejecutar la inferencia sin
configurar manualmente los anclajes. El siguiente ejemplo muestra la carga de un modelo preentrenado para detect objetos:
from ultralytics import YOLO
# Load a pretrained YOLOv5 model (anchor-based architecture)
model = YOLO("yolov5su.pt")
# Run inference on a static image from the web
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected bounding boxes
results[0].show()
Para los interesados en los fundamentos matemáticos de estos sistemas, plataformas educativas como Coursera y DeepLearning.AI ofrecen cursos en profundidad sobre redes neuronales convolucionales y detección de objetos.