Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Cajas de anclaje

Aprenda cómo las cajas de anclaje permiten la detección de objetos basada en anclajes, priors para clasificación, regresión y NMS, con aplicaciones en conducción autónoma y comercio minorista.

Los cuadros de anclaje actúan como plantillas predefinidas o rectángulos de referencia que facilitan la detección de objetos en muchos modelos de aprendizaje profundo. En lugar de entrenar una red neuronal para predecir las coordenadas de un objeto desde cero, lo que puede ser computacionalmente inestable debido a la gran variación en las formas de los objetos, el modelo coloca estos cuadros fijos a lo largo de la imagen y aprende a ajustarlos. Al tratar la detección como un problema de regresión a partir de estas conjeturas iniciales, el sistema puede converger más fácilmente en la ubicación y el tamaño correctos del cuadro delimitador. Este concepto cambió fundamentalmente el panorama de la visión por ordenador al proporcionar un punto de partida estructurado para las tareas de localización.

La mecánica de las cajas de anclaje

En una arquitectura basada en anclajes, la imagen de entrada se divide en una cuadrícula. En cada celda de esta cuadrícula, el modelo genera múltiples cuadros de anclaje con diferentes escalas y relaciones de aspecto. Por ejemplo, para detect objetos como un peatón de pie o un vehículo ancho, el sistema podría proponer simultáneamente un cuadro alto y estrecho y un cuadro corto y ancho en la misma ubicación. Durante el entrenamiento del modelo, estos anclajes se comparan con los objetos de la verdad fundamental utilizando una métrica llamada Intersección sobre Unión (IoU).

Los anclajes que se superponen significativamente con un objeto real se etiquetan como muestras «positivas». A continuación, la red aprende dos tareas principales para estos anclajes positivos:

  1. Clasificación: Determinar la probabilidad de que el ancla contenga una clase de objeto específica (por ejemplo, «perro» o «bicicleta») utilizando técnicas de aprendizaje supervisado.
  2. Regresión: Cálculo de las compensaciones precisas necesarias para desplazar y cambiar el tamaño del ancla de modo que encapsule perfectamente el objeto.

Este proceso suele basarse en funciones de pérdida para penalizar las predicciones inexactas, lo que permite refinar gradualmente la capacidad del modelo para ajustar las plantillas.

Detectores basados en anclajes frente a detectores sin anclajes

Es importante diferenciar entre los enfoques tradicionales y los avances modernos.

  • Detectores basados en anclajes: Modelos heredados como el Faster R-CNN original y YOLOv5 dependen en gran medida de estos recuadros predefinidos. Aunque son eficaces, a menudo requieren un ajuste manual de los hiperparámetros, como el tamaño y la proporción del ancla, para que se adapten al conjunto de datos específico , utilizando a veces el agrupamiento k-means para encontrar las mejores formas de recuadro .
  • Detectores sin anclajes: Los modelos más avanzados, como el ampliamente recomendado YOLO26, han evolucionado hacia arquitecturas sin anclajes o «basadas en el centro». Estos modelos predicen directamente los centros de los objetos y las distancias a los límites, eliminando la necesidad de cuadros de anclaje. Esto da como resultado un diseño más sencillo, una inferencia más rápida y una mejor generalización, especialmente para objetos con formas inusuales.

Aplicaciones en el mundo real

Aunque la industria tiende hacia métodos sin anclaje, las cajas de anclaje siguen siendo relevantes en ámbitos específicos en los que las formas de los objetos están muy estandarizadas.

  • Monitorización del tráfico: En los vehículos autónomos, los sistemas deben detect coches y camiones que suelen seguir una relación de aspecto constante (rectangular y horizontal). Los recuadros de anclaje se pueden ajustar específicamente para estas formas con el fin de mejorar la estabilidad de la detección en autopistas.
  • Inventario detect ista: En el caso de la IA en el comercio minorista, los sistemas de caja automáticos detectan productos como cajas de cereales o latas de refrescos. Dado que estos artículos tienen dimensiones fijas y conocidas, los anclajes pueden preconfigurarse para que coincidan con las especificaciones del producto, lo que ayuda a realizar un recuento preciso de los objetos y minimiza los falsos positivos.

Manejo de predicciones redundantes

Dado que un modelo puede generar miles de cuadros de anclaje para una sola imagen, muchos se superpondrán al mismo objeto. Para resolver esto, se suele utilizar un paso de posprocesamiento denominado supresión no máxima (NMS, por sus siglas en inglés ) . NMS los cuadros duplicados y solo conserva el que tiene la puntuación de confianza más alta. Cabe destacar que los últimos modelos YOLO26 son nativamente de extremo a extremo, lo que significa que producen el conjunto final de objetos directamente sin necesitar NMS, lo que acelera significativamente la implementación.

Ejemplo: Detección de objetos

Independientemente de si un modelo utiliza anclajes internamente, el resultado es estándar: cuadros delimitadores. Lo siguiente Python El código muestra cómo cargar un modelo y visualizar estas cajas utilizando el ultralytics paquete.

from ultralytics import YOLO

# Load the latest YOLO26 model (natively end-to-end)
model = YOLO("yolo26n.pt")

# Perform inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes
results[0].show()

Para los equipos que buscan anotar datos y gestionar los flujos de trabajo de formación de manera eficiente, la Ultralytics proporciona un entorno integral para manejar conjuntos de datos e implementar modelos sin tener que gestionar una infraestructura compleja.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora