Caixa Delimitadora
Aprenda como as caixas delimitadoras habilitam a detecção de objetos, IA e sistemas de aprendizado de máquina. Explore seu papel em aplicações de visão computacional!
Uma caixa delimitadora é uma região retangular definida por coordenadas que isola uma caraterística ou objeto específico numa
imagem ou quadro de vídeo. No domínio da
visão por computador, esta anotação serve como
unidade fundamental para a localização de entidades distintas, permitindo
sistemas de inteligência artificial (IA) para
"ver" onde um item está localizado, em vez de apenas saber que ele existe na cena. Utilizada principalmente em
tarefas de deteção de objectos, uma caixa delimitadora delineia
a extensão espacial de um alvo - como um carro, uma pessoa ou um produto - e está normalmente associada a uma etiqueta de classe e a uma
e uma pontuação de confiança que indica a certeza do modelo.
Sistemas e formatos de coordenadas
Para permitir que os modelos de aprendizagem automática (ML)
processem matematicamente os dados visuais, as caixas delimitadoras são representadas utilizando sistemas de coordenadas específicos. A escolha do formato
formato depende frequentemente dos conjuntos de dados utilizados para treino ou dos
requisitos específicos da arquitetura de deteção.
-
XYXY (Coordenadas de canto): Este formato utiliza os valores absolutos de píxeis do canto superior esquerdo ($x1,
y1$) e do canto inferior direito ($x2, y2$). É altamente intuitivo e frequentemente utilizado em bibliotecas de visualização
como o Matplotlib para desenhar rectângulos sobre imagens.
-
XYWH (tamanho central): Popularizada pelo conjunto de dados
conjunto de dadosCOCO , esta representação especifica o
ponto central do objeto ($x_centro, y_centro$) seguido da largura e altura da caixa. Este formato é
crucial para calcular funções de perda durante o
durante o treinamento do modelo.
-
Coordenadas normalizadas: Para garantir a
escalabilidade em diferentes resoluções de imagem,
as coordenadas são frequentemente normalizadas para um intervalo entre 0 e 1 relativamente às dimensões da imagem. Isso permite que os modelos
generalizar melhor ao processar entradas de tamanhos variados.
Tipos de Bounding Boxes
Embora a caixa retangular padrão se adapte a muitos cenários, os ambientes complexos do mundo real exigem, por vezes, formas mais
formas mais especializadas.
-
Caixa delimitadora alinhada ao eixo (AABB): Estas são as caixas padrão em que os bordos são paralelos aos
paralelos aos eixos da imagem (vertical e horizontal). São computacionalmente eficientes e são a saída padrão para modelos de alta velocidade
de alta velocidade como o YOLO11.
-
Caixa delimitadora orientada (OBB): Quando os objectos são rodados, finos ou agrupados - como
navios num porto ou texto num documento - uma caixa padrão pode incluir demasiado ruído de fundo. Uma
Caixa delimitadora orientada inclui um parâmetro de ângulo adicional,
permitindo que o retângulo rode e se ajuste firmemente ao objeto. Isto é vital para tarefas de precisão como
análise de imagens de satélite.
Aplicações no Mundo Real
As caixas delimitadoras funcionam como blocos de construção de sistemas sofisticados de tomada de decisões em vários sectores.
-
Veículos autónomos: A tecnologia de condução autónoma depende fortemente de caixas delimitadoras para manter
consciência espacial. Ao desenhar
caixas à volta de peões, semáforos e outros carros, o sistema estima distâncias e trajectórias para evitar
colisões. Pode explorar mais este assunto na nossa visão geral da
IA no sector automóvel.
-
Gestão de retalho e de inventário: As lojas inteligentes utilizam caixas delimitadoras para track produtos nas prateleiras.
Os sistemas podem identificar artigos fora de stock ou automatizar os processos de checkout localizando os produtos num carrinho. Isto
melhora a eficiência e é um componente essencial da
IA nas soluções de retalho.
Caixa delimitadora vs. Segmentação
É importante distinguir as caixas delimitadoras da
segmentação de imagens, uma vez que resolvem diferentes
níveis de granularidade.
-
Caixa de delimitação: Fornece uma localização grosseira. Ele informa aproximadamente onde o objeto está
objeto, envolvendo-o numa caixa. É mais rápido de anotar e computacionalmente mais barato para
inferência em tempo real.
-
Segmentação de instância: Cria uma máscara com pixels perfeitos que delineia a forma exacta do objeto.
Embora mais precisa, a segmentação é mais intensiva em termos de computação. Para aplicações como
análise de imagens médicas em que os limites exactos
onde os limites exactos de um tumor são importantes, a segmentação é frequentemente preferida em vez de simples caixas delimitadoras.
Exemplo prático com Python
O seguinte snippet demonstra como usar o ultralytics para gerar caixas delimitadoras. Carregamos
um ficheiro pré-treinado YOLO11 modelo e imprimir os dados de coordenadas dos objectos
objectos detectados.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an online image
results = model("https://ultralytics.com/images/bus.jpg")
# Access the bounding box coordinates (xyxy format) for the first detection
box = results[0].boxes[0]
print(f"Object Class: {box.cls}")
print(f"Coordinates: {box.xyxy}")
A exatidão destas previsões é normalmente avaliada utilizando uma métrica denominada
Intersecção sobre União (IoU), que
mede a sobreposição entre a caixa prevista e a anotação
e a anotação de verdade fornecida por rotuladores humanos. IoU
elevadas de IoU
elevadas indicam que o modelo localizou corretamente o objeto.