Saiba como as caixas delimitadoras definem as localizações dos objetos na visão computacional. Explore formatos de coordenadas, aplicações no mundo real e como usar Ultralytics .
Uma caixa delimitadora é uma região retangular definida por um conjunto de coordenadas que envolve um objeto específico dentro de uma imagem ou quadro de vídeo. No campo da visão computacional (CV), essas caixas servem como anotações fundamentais para ensinar sistemas de inteligência artificial (IA) a localizar e reconhecer itens distintos. Em vez de simplesmente classificar uma imagem inteira como «contendo um carro», uma caixa delimitadora permite que um modelo identifique a localização exata e a extensão espacial do carro, separando-o do fundo e de outras entidades. Essa capacidade de localização é essencial para tarefas de deteção de objetos, onde o objetivo é identificar vários objetos simultaneamente com alta precisão.
Para processar dados visuais de forma eficaz, os modelos de aprendizagem automática (ML) dependem de sistemas de coordenadas específicos para representar matematicamente as caixas delimitadoras. O formato escolhido geralmente determina como os dados são preparados para o treino do modelo e como o modelo gera as suas previsões.
As caixas delimitadoras são os blocos de construção de inúmeras soluções de IA em diversos setores. Ao permitir uma localização precisa , elas permitem que os sistemas interajam de forma inteligente com o mundo físico.
Ao utilizar arquiteturas modernas como YOLO26, o modelo
prevê caixas delimitadoras juntamente com uma etiqueta de classe e um
índice de confiança. O exemplo a seguir demonstra como
executar a inferência em uma imagem e acessar as coordenadas da caixa delimitadora usando o ultralytics pacote.
from ultralytics import YOLO
# Load the YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Access bounding box coordinates (xyxy format) for the first detected object
boxes = results[0].boxes
print(boxes.xyxy[0]) # Output: tensor([x1, y1, x2, y2, ...])
Embora as caixas delimitadoras sejam padrão para a detecção geral, elas são distintas de outros tipos de anotação usados em tarefas mais granulares.
Criar anotações de caixas delimitadoras de alta qualidade é uma etapa crítica no pipeline de ML. A Ultralytics simplifica esse processo, oferecendo ferramentas para anotação de dados e gestão de conjuntos de dados. A anotação adequada garante que os modelos aprendam a distinguir objetos com precisão, minimizando erros como sobreajuste ou confusão de fundo. Técnicas avançadas como a Supressão Não Máxima (NMS) são usadas durante a inferência para refinar essas previsões, removendo caixas sobrepostas e garantindo que apenas a detecção mais precisa permaneça para cada objeto.