Bounding Box (Caja delimitadora)
Aprenda cómo las bounding boxes (cajas delimitadoras) habilitan la detección de objetos, la IA y los sistemas de aprendizaje automático. ¡Explore su papel en las aplicaciones de visión artificial!
Un cuadro delimitador es una región rectangular definida por coordenadas que aísla una característica u objeto específico dentro de una
imagen o un fotograma de vídeo. En el ámbito de la
visión por ordenador, esta anotación sirve como unidad
unidad fundamental para localizar entidades distintas, permitiendo
sistemas de inteligencia artificial (IA)
(IA) "vean" dónde se encuentra un elemento en lugar de limitarse a saber que existe en la escena. Utilizado principalmente en
tareas de detección de objetos, un recuadro delimita
la extensión espacial de un objetivo -como un coche, una persona o un producto- y se suele asociar con una etiqueta de clase y una puntuación de confianza que indica la certeza del modelo.
una puntuación de confianza que indica la certeza del modelo.
Sistemas de coordenadas y formatos
Para que los modelos de aprendizaje automático
procesen matemáticamente los datos visuales, los recuadros delimitadores se representan mediante sistemas de coordenadas específicos. La elección del
formato depende a menudo de los conjuntos de datos utilizados para el entrenamiento o de los requisitos específicos de la arquitectura de detección.
requisitos específicos de la arquitectura de detección.
-
XYXY (Coordenadas de esquina): Este formato utiliza los valores absolutos en píxeles de la esquina superior izquierda ($x1,
y1$) y la esquina inferior derecha ($x2, y2$). Es muy intuitivo y se utiliza con frecuencia en bibliotecas de visualización
como Matplotlib para dibujar rectángulos sobre imágenes.
-
XYWH (Tamaño central): Popularizada por el conjunto de datos
conjunto de datosCOCO , esta representación especifica el
punto central del objeto ($x_center, y_center$) seguido de la anchura y la altura de la caja. Este formato es
crucial para calcular las funciones de pérdida
del modelo.
-
Coordenadas normalizadas: Para garantizar
escalabilidad a través de diferentes resoluciones de imagen,
las coordenadas suelen normalizarse en un rango entre 0 y 1 en relación con las dimensiones de la imagen. Esto permite a los modelos
generalizar mejor al procesar entradas de distintos tamaños.
Tipos de Bounding Boxes
Aunque la caja rectangular estándar se adapta a muchos escenarios, los entornos complejos del mundo real a veces requieren formas más especializadas.
formas más especializadas.
-
Caja delimitadora alineada con el eje (AABB): Estas son las cajas estándar donde los bordes son paralelos a la
ejes de la imagen (vertical y horizontal). Son eficientes desde el punto de vista computacional y son la salida por defecto para los modelos de alta velocidad
alta velocidad como YOLO11.
-
Caja delimitadora orientada (OBB): Cuando los objetos están girados, son finos o están muy juntos, como los barcos en un puerto o el texto en un documento, un cuadro estándar puede incluir demasiado ruido de fondo.
barcos en un puerto o texto en un documento, un cuadro estándar puede incluir demasiado ruido de fondo. Un
Bounding Box orientado incluye un parámetro de ángulo adicional
que permite al rectángulo girar y ajustarse al objeto. Esto es vital para tareas precisas como
análisis de imágenes de satélite.
Aplicaciones en el mundo real
Los cuadros delimitadores son los componentes básicos de sofisticados sistemas de toma de decisiones en diversos sectores.
-
Vehículos autónomos: La tecnología de conducción autónoma depende en gran medida de los recuadros delimitadores para mantener
la conciencia espacial. Al dibujar
alrededor de peatones, semáforos y otros coches, el sistema calcula distancias y trayectorias para evitar colisiones.
colisiones. Puede profundizar en este tema en nuestro resumen de
IA en automoción.
-
Comercio minorista y gestión de inventarios: Las tiendas inteligentes utilizan cajas delimitadoras para track los productos en las estanterías.
Los sistemas pueden identificar los artículos agotados o automatizar los procesos de pago localizando los productos en un carrito. Este
Esto mejora la eficiencia y es un componente clave de la
AI en las soluciones de comercio minorista.
Bounding Box vs. Segmentación
Es importante distinguir los recuadros delimitadores de
segmentación de imágenes, ya que resuelven
niveles de granularidad.
-
Caja delimitadora: Proporciona una localización aproximada. Indica aproximadamente dónde se encuentra el objeto
encerrándolo en una caja. Es más rápido de anotar y computacionalmente más barato para la inferencia en tiempo real.
inferencia en tiempo real.
-
Segmentación de instancias: Crea una máscara de píxeles perfectos que delinea la forma exacta del objeto.
Aunque es más precisa, la segmentación es más intensiva desde el punto de vista computacional. Para aplicaciones como
análisis de imágenes médicas en las que
En aplicaciones como el análisis de imágenes médicas, en las que los límites exactos del tumor son importantes, a menudo se prefiere la segmentación a los simples cuadros delimitadores.
Ejemplo práctico con Python
El siguiente fragmento muestra cómo utilizar la función ultralytics para generar cuadros delimitadores. Cargamos
una biblioteca YOLO11 e imprimir los datos de coordenadas de los
objetos detectados.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")
# Access the bounding box coordinates (xyxy format) for the first detection
box = results[0].boxes[0]
print(f"Object Class: {box.cls}")
print(f"Coordinates: {box.xyxy}")
La precisión de estas predicciones suele evaluarse mediante una métrica denominada
Intersección sobre Unión (IoU), que
que mide el solapamiento entre la caja predicha y la
la anotación real proporcionada por etiquetadores humanos. Un valor alto de IoU
indican que el modelo ha localizado correctamente el objeto.