Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Caixa Delimitadora

Saiba como as caixas delimitadoras definem as localizações dos objetos na visão computacional. Explore formatos de coordenadas, aplicações no mundo real e como usar Ultralytics .

Uma caixa delimitadora é uma região retangular definida por um conjunto de coordenadas que envolve um objeto específico dentro de uma imagem ou quadro de vídeo. No campo da visão computacional (CV), essas caixas servem como anotações fundamentais para ensinar sistemas de inteligência artificial (IA) a localizar e reconhecer itens distintos. Em vez de simplesmente classificar uma imagem inteira como «contendo um carro», uma caixa delimitadora permite que um modelo identifique a localização exata e a extensão espacial do carro, separando-o do fundo e de outras entidades. Essa capacidade de localização é essencial para tarefas de deteção de objetos, onde o objetivo é identificar vários objetos simultaneamente com alta precisão.

Conceitos fundamentais e coordenadas

Para processar dados visuais de forma eficaz, os modelos de aprendizagem automática (ML) dependem de sistemas de coordenadas específicos para representar matematicamente as caixas delimitadoras. O formato escolhido geralmente determina como os dados são preparados para o treino do modelo e como o modelo gera as suas previsões.

  • Coordenadas XYXY: Este formato define uma caixa utilizando os valores absolutos em pixels do canto superior esquerdo e do canto inferior direito. É intuitivo para ferramentas de visualização como o OpenCV ou Matplotlib ao desenhar retângulos diretamente nas imagens.
  • Formato XYWH: Comum em conjuntos de dados como COCO, este método especifica o ponto central do objeto seguido pela largura e altura da caixa. Esta representação é fundamental para calcular funções de perda durante o processo de aprendizagem .
  • Coordenadas normalizadas: Para garantir a escalabilidade entre imagens de diferentes resoluções, as coordenadas são frequentemente escalonadas para um intervalo entre 0 e 1. Isso ajuda os modelos a generalizar melhor ao analisar entradas de dimensões variadas.

Aplicações no Mundo Real

As caixas delimitadoras são os blocos de construção de inúmeras soluções de IA em diversos setores. Ao permitir uma localização precisa , elas permitem que os sistemas interajam de forma inteligente com o mundo físico.

  • Veículos autónomos: Os carros autônomos utilizam caixas delimitadoras para detect track , outros veículos, sinais de trânsito e obstáculos em tempo real. Essa consciência espacial é crucial para que os sistemas de navegação e segurança tomem decisões em frações de segundo.
  • Análise de retalho: em lojas inteligentes, as caixas delimitadoras ajudam a monitorizar o inventário nas prateleiras e track as interações track com os produtos. Esses dados podem automatizar a reposição de estoque e fornecer insights sobre o comportamento do consumidor sem a necessidade de contagem manual.

Caixas delimitadoras em ação

Ao utilizar arquiteturas modernas como YOLO26, o modelo prevê caixas delimitadoras juntamente com uma etiqueta de classe e um índice de confiança. O exemplo a seguir demonstra como executar a inferência em uma imagem e acessar as coordenadas da caixa delimitadora usando o ultralytics pacote.

from ultralytics import YOLO

# Load the YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0])  # Output: tensor([x1, y1, x2, y2, ...])

Termos relacionados e diferenciação

Embora as caixas delimitadoras sejam padrão para a detecção geral, elas são distintas de outros tipos de anotação usados em tarefas mais granulares.

  • Segmentação de instância: Ao contrário de uma caixa delimitadora retangular, a segmentação cria uma máscara com pixels perfeitos que traça o contorno exato de um objeto. Isso é útil quando a forma precisa é mais importante do que a localização geral.
  • Caixa delimitadora orientada (OBB): As caixas delimitadoras padrão são alinhadas ao eixo (retângulos verticais). As OBBs podem girar para se ajustar a objetos que estão em ângulo, como navios em imagens de satélite ou pacotes em uma esteira transportadora, proporcionando um ajuste mais preciso e reduzindo o ruído de fundo.
  • Pontos-chave: Em vez de envolver um objeto, os pontos-chave identificam marcos específicos, como articulações no corpo humano para estimativa de pose.

Ferramentas para anotação e gestão

Criar anotações de caixas delimitadoras de alta qualidade é uma etapa crítica no pipeline de ML. A Ultralytics simplifica esse processo, oferecendo ferramentas para anotação de dados e gestão de conjuntos de dados. A anotação adequada garante que os modelos aprendam a distinguir objetos com precisão, minimizando erros como sobreajuste ou confusão de fundo. Técnicas avançadas como a Supressão Não Máxima (NMS) são usadas durante a inferência para refinar essas previsões, removendo caixas sobrepostas e garantindo que apenas a detecção mais precisa permaneça para cada objeto.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora