Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Caixa Delimitadora

Aprenda como as caixas delimitadoras habilitam a detecção de objetos, IA e sistemas de aprendizado de máquina. Explore seu papel em aplicações de visão computacional!

Uma caixa delimitadora é uma região retangular definida por coordenadas que isola uma caraterística ou objeto específico numa imagem ou quadro de vídeo. No domínio da visão por computador, esta anotação serve como unidade fundamental para a localização de entidades distintas, permitindo sistemas de inteligência artificial (IA) para "ver" onde um item está localizado, em vez de apenas saber que ele existe na cena. Utilizada principalmente em tarefas de deteção de objectos, uma caixa delimitadora delineia a extensão espacial de um alvo - como um carro, uma pessoa ou um produto - e está normalmente associada a uma etiqueta de classe e a uma e uma pontuação de confiança que indica a certeza do modelo.

Sistemas e formatos de coordenadas

Para permitir que os modelos de aprendizagem automática (ML) processem matematicamente os dados visuais, as caixas delimitadoras são representadas utilizando sistemas de coordenadas específicos. A escolha do formato formato depende frequentemente dos conjuntos de dados utilizados para treino ou dos requisitos específicos da arquitetura de deteção.

  • XYXY (Coordenadas de canto): Este formato utiliza os valores absolutos de píxeis do canto superior esquerdo ($x1, y1$) e do canto inferior direito ($x2, y2$). É altamente intuitivo e frequentemente utilizado em bibliotecas de visualização como o Matplotlib para desenhar rectângulos sobre imagens.
  • XYWH (tamanho central): Popularizada pelo conjunto de dados conjunto de dadosCOCO , esta representação especifica o ponto central do objeto ($x_centro, y_centro$) seguido da largura e altura da caixa. Este formato é crucial para calcular funções de perda durante o durante o treinamento do modelo.
  • Coordenadas normalizadas: Para garantir a escalabilidade em diferentes resoluções de imagem, as coordenadas são frequentemente normalizadas para um intervalo entre 0 e 1 relativamente às dimensões da imagem. Isso permite que os modelos generalizar melhor ao processar entradas de tamanhos variados.

Tipos de Bounding Boxes

Embora a caixa retangular padrão se adapte a muitos cenários, os ambientes complexos do mundo real exigem, por vezes, formas mais formas mais especializadas.

  • Caixa delimitadora alinhada ao eixo (AABB): Estas são as caixas padrão em que os bordos são paralelos aos paralelos aos eixos da imagem (vertical e horizontal). São computacionalmente eficientes e são a saída padrão para modelos de alta velocidade de alta velocidade como o YOLO11.
  • Caixa delimitadora orientada (OBB): Quando os objectos são rodados, finos ou agrupados - como navios num porto ou texto num documento - uma caixa padrão pode incluir demasiado ruído de fundo. Uma Caixa delimitadora orientada inclui um parâmetro de ângulo adicional, permitindo que o retângulo rode e se ajuste firmemente ao objeto. Isto é vital para tarefas de precisão como análise de imagens de satélite.

Aplicações no Mundo Real

As caixas delimitadoras funcionam como blocos de construção de sistemas sofisticados de tomada de decisões em vários sectores.

  1. Veículos autónomos: A tecnologia de condução autónoma depende fortemente de caixas delimitadoras para manter consciência espacial. Ao desenhar caixas à volta de peões, semáforos e outros carros, o sistema estima distâncias e trajectórias para evitar colisões. Pode explorar mais este assunto na nossa visão geral da IA no sector automóvel.
  2. Gestão de retalho e de inventário: As lojas inteligentes utilizam caixas delimitadoras para track produtos nas prateleiras. Os sistemas podem identificar artigos fora de stock ou automatizar os processos de checkout localizando os produtos num carrinho. Isto melhora a eficiência e é um componente essencial da IA nas soluções de retalho.

Caixa delimitadora vs. Segmentação

É importante distinguir as caixas delimitadoras da segmentação de imagens, uma vez que resolvem diferentes níveis de granularidade.

  • Caixa de delimitação: Fornece uma localização grosseira. Ele informa aproximadamente onde o objeto está objeto, envolvendo-o numa caixa. É mais rápido de anotar e computacionalmente mais barato para inferência em tempo real.
  • Segmentação de instância: Cria uma máscara com pixels perfeitos que delineia a forma exacta do objeto. Embora mais precisa, a segmentação é mais intensiva em termos de computação. Para aplicações como análise de imagens médicas em que os limites exactos onde os limites exactos de um tumor são importantes, a segmentação é frequentemente preferida em vez de simples caixas delimitadoras.

Exemplo prático com Python

O seguinte snippet demonstra como usar o ultralytics para gerar caixas delimitadoras. Carregamos um ficheiro pré-treinado YOLO11 modelo e imprimir os dados de coordenadas dos objectos objectos detectados.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")

# Access the bounding box coordinates (xyxy format) for the first detection
box = results[0].boxes[0]
print(f"Object Class: {box.cls}")
print(f"Coordinates: {box.xyxy}")

A exatidão destas previsões é normalmente avaliada utilizando uma métrica denominada Intersecção sobre União (IoU), que mede a sobreposição entre a caixa prevista e a anotação e a anotação de verdade fornecida por rotuladores humanos. IoU elevadas de IoU elevadas indicam que o modelo localizou corretamente o objeto.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora