Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Bounding Box (Caja delimitadora)

Descubra cómo los cuadros delimitadores definen la ubicación de los objetos en la visión artificial. Explore los formatos de coordenadas, las aplicaciones en el mundo real y cómo utilizar Ultralytics .

Un cuadro delimitador es una región rectangular definida por un conjunto de coordenadas que encierra un objeto específico dentro de una imagen o fotograma de vídeo. En el campo de la visión por ordenador (CV), estos cuadros sirven como anotaciones fundamentales para enseñar a los sistemas de inteligencia artificial (IA) a localizar y reconocer elementos distintos. En lugar de limitarse a clasificar una imagen completa como «que contiene un coche», un cuadro delimitador permite a un modelo señalar la ubicación exacta y la extensión espacial del coche, separándolo del fondo y de otras entidades. Esta capacidad de localización es esencial para las tareas de detección de objetos, cuyo objetivo es identificar múltiples objetos simultáneamente con alta precisión.

Conceptos básicos y coordenadas

Para procesar datos visuales de manera eficaz, los modelos de aprendizaje automático (ML) se basan en sistemas de coordenadas específicos para representar matemáticamente los rectángulos delimitadores. El formato elegido suele determinar cómo se preparan los datos para el entrenamiento del modelo y cómo el modelo genera sus predicciones.

  • Coordenadas XYXY: Este formato define un cuadro utilizando los valores absolutos en píxeles de la esquina superior izquierda y la esquina inferior derecha. Es intuitivo para herramientas de visualización como OpenCV o Matplotlib al dibujar rectángulos directamente sobre imágenes.
  • Formato XYWH: Común en conjuntos de datos como COCO, este método especifica el punto central del objeto seguido del ancho y alto del recuadro. Esta representación es fundamental para calcular las funciones de pérdida durante el proceso de aprendizaje .
  • Coordenadas normalizadas: Para garantizar la escalabilidad entre imágenes de diferentes resoluciones, las coordenadas suelen escalarse a un rango entre 0 y 1. Esto ayuda a los modelos a generalizar mejor al analizar entradas de diferentes dimensiones.

Aplicaciones en el mundo real

Los rectángulos delimitadores son los bloques de construcción de innumerables soluciones de IA en diversas industrias. Al permitir una localización precisa , permiten que los sistemas interactúen de manera inteligente con el mundo físico.

  • Vehículos autónomos: Los coches autónomos utilizan cuadros delimitadores para detect track , otros vehículos, señales de tráfico y obstáculos en tiempo real. Esta conciencia espacial es crucial para que los sistemas de navegación y seguridad tomen decisiones en fracciones de segundo.
  • Análisis minorista: en las tiendas inteligentes, los recuadros de delimitación ayudan a supervisar el inventario en las estanterías y track las interacciones track con los productos. Estos datos pueden automatizar la reposición de existencias y proporcionar información sobre el comportamiento de los compradores sin necesidad de realizar recuentos manuales.

Cuadros delimitadores en acción

Cuando se utilizan arquitecturas modernas como YOLO26, el modelo predice cuadros delimitadores junto con una etiqueta de clase y un puntuación de confianza. El siguiente ejemplo muestra cómo ejecutar la inferencia en una imagen y acceder a las coordenadas del cuadro delimitador utilizando el ultralytics paquete.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0])  # Output: tensor([x1, y1, x2, y2, ...])

Términos relacionados y diferenciación

Aunque los rectángulos delimitadores son estándar para la detección general, son distintos de otros tipos de anotación utilizados en tareas más granulares.

  • Segmentación de instancias: A diferencia de un cuadro delimitador rectangular, la segmentación crea una máscara con píxeles perfectos que traza el contorno exacto de un objeto. Esto resulta útil cuando la forma precisa es más importante que la ubicación general.
  • Cuadro delimitador orientado (OBB): Los cuadros delimitadores estándar están alineados con los ejes (rectángulos verticales). Los OBB pueden girar para adaptarse a objetos que están en ángulo, como barcos en imágenes de satélite o paquetes en una cinta transportadora, lo que proporciona un ajuste más preciso y reduce el ruido de fondo.
  • Puntos clave: en lugar de encerrar un objeto, los puntos clave identifican puntos de referencia específicos, como las articulaciones en un cuerpo humano para la estimación de la postura.

Herramientas para la anotación y la gestión

La creación de anotaciones de cuadros delimitadores de alta calidad es un paso fundamental en el proceso de aprendizaje automático. Ultralytics simplifica este proceso al ofrecer herramientas para la anotación de datos y la gestión de conjuntos de datos. Una anotación adecuada garantiza que los modelos aprendan a distinguir objetos con precisión, minimizando errores como el sobreajuste o la confusión de fondo. Durante la inferencia se utilizan técnicas avanzadas como la supresión no máxima (NMS) para refinar estas predicciones eliminando los recuadros superpuestos, lo que garantiza que solo quede la detección más precisa para cada objeto.

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora