Aprenda cómo las cajas de anclaje permiten la detección de objetos basada en anclajes, priors para clasificación, regresión y NMS, con aplicaciones en conducción autónoma y comercio minorista.
Los cuadros de anclaje actúan como plantillas predefinidas o rectángulos de referencia que facilitan la detección de objetos en muchos modelos de aprendizaje profundo. En lugar de entrenar una red neuronal para predecir las coordenadas de un objeto desde cero, lo que puede ser computacionalmente inestable debido a la gran variación en las formas de los objetos, el modelo coloca estos cuadros fijos a lo largo de la imagen y aprende a ajustarlos. Al tratar la detección como un problema de regresión a partir de estas conjeturas iniciales, el sistema puede converger más fácilmente en la ubicación y el tamaño correctos del cuadro delimitador. Este concepto cambió fundamentalmente el panorama de la visión por ordenador al proporcionar un punto de partida estructurado para las tareas de localización.
En una arquitectura basada en anclajes, la imagen de entrada se divide en una cuadrícula. En cada celda de esta cuadrícula, el modelo genera múltiples cuadros de anclaje con diferentes escalas y relaciones de aspecto. Por ejemplo, para detect objetos como un peatón de pie o un vehículo ancho, el sistema podría proponer simultáneamente un cuadro alto y estrecho y un cuadro corto y ancho en la misma ubicación. Durante el entrenamiento del modelo, estos anclajes se comparan con los objetos de la verdad fundamental utilizando una métrica llamada Intersección sobre Unión (IoU).
Los anclajes que se superponen significativamente con un objeto real se etiquetan como muestras «positivas». A continuación, la red aprende dos tareas principales para estos anclajes positivos:
Este proceso suele basarse en funciones de pérdida para penalizar las predicciones inexactas, lo que permite refinar gradualmente la capacidad del modelo para ajustar las plantillas.
Es importante diferenciar entre los enfoques tradicionales y los avances modernos.
Aunque la industria tiende hacia métodos sin anclaje, las cajas de anclaje siguen siendo relevantes en ámbitos específicos en los que las formas de los objetos están muy estandarizadas.
Dado que un modelo puede generar miles de cuadros de anclaje para una sola imagen, muchos se superpondrán al mismo objeto. Para resolver esto, se suele utilizar un paso de posprocesamiento denominado supresión no máxima (NMS, por sus siglas en inglés ) . NMS los cuadros duplicados y solo conserva el que tiene la puntuación de confianza más alta. Cabe destacar que los últimos modelos YOLO26 son nativamente de extremo a extremo, lo que significa que producen el conjunto final de objetos directamente sin necesitar NMS, lo que acelera significativamente la implementación.
Independientemente de si un modelo utiliza anclajes internamente, el resultado es estándar: cuadros delimitadores. Lo siguiente
Python El código muestra cómo cargar un modelo y visualizar estas cajas utilizando el
ultralytics paquete.
from ultralytics import YOLO
# Load the latest YOLO26 model (natively end-to-end)
model = YOLO("yolo26n.pt")
# Perform inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting bounding boxes
results[0].show()
Para los equipos que buscan anotar datos y gestionar los flujos de trabajo de formación de manera eficiente, la Ultralytics proporciona un entorno integral para manejar conjuntos de datos e implementar modelos sin tener que gestionar una infraestructura compleja.