Bounding Box
Aprende cómo los cuadros delimitadores definen las ubicaciones de los objetos en la visión artificial. Explora los formatos de coordenadas, las aplicaciones en el mundo real y cómo usar YOLO26 de Ultralytics.
Una BBox es una región rectangular definida por un conjunto de coordenadas que encierra un objeto específico dentro de una imagen o fotograma de vídeo. En el campo de la computer vision (CV), estas cajas sirven como anotaciones fundamentales para enseñar a los sistemas de artificial intelligence (AI) a localizar y reconocer elementos distintos. En lugar de simplemente clasificar una imagen completa como "que contiene un coche", una BBox permite a un modelo señalar la ubicación exacta y la extensión espacial del coche, separándolo del fondo y de otras entidades. Esta capacidad de localización es esencial para tareas de object detection, donde el objetivo es identificar múltiples objetos simultáneamente con alta precisión.
Link to this sectionConceptos clave y coordenadas#
Para procesar datos visuales de manera efectiva, los modelos de machine learning (ML) confían en sistemas de coordenadas específicos para representar las BBox matemáticamente. El formato elegido a menudo dicta cómo se preparan los datos para el model training y cómo el modelo genera sus predicciones.
- Coordenadas XYXY: Este formato define una caja utilizando los valores absolutos de píxeles de la esquina superior izquierda y la esquina inferior derecha. Es intuitivo para herramientas de visualización como OpenCV o Matplotlib al dibujar rectángulos directamente sobre las imágenes.
- Formato XYWH: Común en conjuntos de datos como COCO, este método especifica el punto central del objeto seguido por la anchura y la altura de la caja. Esta representación es crítica para calcular loss functions durante el proceso de aprendizaje.
- Coordenadas normalizadas: Para asegurar la scalability a través de imágenes de diferentes resoluciones, las coordenadas a menudo se escalan a un rango entre 0 y 1. Esto ayuda a los modelos a generalizar mejor al analizar entradas de dimensiones variables.
Link to this sectionAplicaciones en el mundo real#
Las BBox son los bloques de construcción para innumerables soluciones de IA en diversas industrias. Al permitir una localización precisa, permiten a los sistemas interactuar inteligentemente con el mundo físico.
- Autonomous Vehicles: Los coches autónomos utilizan BBox para detectar y rastrear peatones, otros vehículos, señales de tráfico y obstáculos en tiempo real. Esta conciencia espacial es crucial para que los sistemas de navegación y seguridad tomen decisiones en fracciones de segundo.
- Retail Analytics: En tiendas inteligentes, las BBox ayudan a monitorizar el inventario en los estantes y a rastrear las interacciones de los clientes con los productos. Estos datos pueden automatizar el reabastecimiento de existencias y proporcionar información sobre el comportamiento del comprador sin necesidad de recuento manual.
Link to this sectionBBox en acción#
Al utilizar arquitecturas modernas como YOLO26, el modelo predice BBox junto con una etiqueta de clase y una confidence score. El siguiente ejemplo demuestra cómo ejecutar la inferencia en una imagen y acceder a las coordenadas de la BBox utilizando el paquete ultralytics.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])Link to this sectionTérminos relacionados y diferenciación#
Aunque las BBox son estándar para la detección general, son distintas de otros tipos de anotación utilizados en tareas más granulares.
- Instance Segmentation: A diferencia de una BBox rectangular, la segmentación crea una máscara perfecta a nivel de píxel que traza el contorno exacto de un objeto. Esto es útil cuando la forma precisa es más importante que la ubicación general.
- Oriented Bounding Box (OBB): Las BBox estándar están alineadas con los ejes (rectángulos verticales). Las OBB pueden rotar para ajustarse a objetos que están en ángulo, como barcos en imágenes de satélite o paquetes en una cinta transportadora, proporcionando un ajuste más preciso y reduciendo el ruido de fondo.
- Keypoints: En lugar de encerrar un objeto, los keypoints identifican puntos de referencia específicos, como las articulaciones en un cuerpo humano para la pose estimation.
Link to this sectionHerramientas para la anotación y gestión#
Crear anotaciones de BBox de alta calidad es un paso crítico en el pipeline de ML. La Ultralytics Platform simplifica este proceso ofreciendo herramientas para data annotation y gestión de datasets. Una anotación adecuada asegura que los modelos aprendan a distinguir los objetos con precisión, minimizando errores como el overfitting o la confusión con el fondo. Técnicas avanzadas como Non-Maximum Suppression (NMS) se utilizan durante la inferencia para refinar estas predicciones eliminando cajas superpuestas, asegurando que solo permanezca la detección más precisa para cada objeto.






