Saiba como as caixas de ancoragem permitem a deteção de objectos com base em ancoragem, priors para classificação, regressão e NMS, com aplicações na condução autónoma e no retalho.
As caixas de ancoragem são um conceito fundamental na arquitetura de muitos modelos de deteção de objectos, actuando como referências predefinidas para prever a localização e o tamanho dos objectos. Em vez de procurar objectos de dimensões arbitrárias numa imagem dimensões arbitrárias, o modelo utiliza estas formas fixas - definidas por alturas e larguras específicas - como pontos de partida, ou priors. Esta abordagem simplifica o processo de aprendizagem, transformando a difícil tarefa de previsão de coordenadas absolutas de previsão de coordenadas absolutas num problema de regressão mais fácil de gerir, em que a rede aprende a ajustar, ou "compensar", estes modelos para se adaptarem aos objectos reais. Esta Esta técnica tem sido fundamental para o sucesso de arquitecturas populares como a família família Faster R-CNN e os primeiros detectores de estágio único.
O mecanismo das caixas de ancoragem envolve a colocação da imagem de entrada numa grelha densa de centros. Em cada célula da grelha, várias caixas de ancoragem com diferentes rácios de aspeto e escalas são geradas para acomodar objectos de diferentes formas, como peões altos ou veículos largos. Durante a fase de Durante a fase de treino do modelo, o sistema faz corresponder estas âncoras a objectos reais utilizando uma métrica chamada Intersecção sobre União (IoU). As âncoras que se sobrepõem significativamente a um objeto alvo são rotuladas como amostras positivas.
A espinha dorsal do detetor extrai caraterísticas da imagem, que a cabeça de deteção utiliza para executar duas tarefas paralelas para cada âncora positiva:
Para lidar com a sobreposição de previsões para o mesmo objeto, um passo de pós-processamento conhecido como Supressão Não Máxima (NMS) filtra filtra as caixas redundantes, retendo apenas a que tem maior confiança. Estruturas como PyTorch e TensorFlow fornecem as ferramentas computacionais necessárias para implementar estas operações complexas de forma eficiente.
Para compreender as caixas de ancoragem é necessário distingui-las de termos semelhantes na visão computacional (CV).
A natureza estruturada das caixas de ancoragem torna-as particularmente eficazes em ambientes onde as formas dos objectos são consistentes e previsíveis.
Enquanto os modelos modernos como o YOLO11 não têm âncoras, as iterações anteriores como o YOLOv5 utilizam caixas de âncoras. O
ultralytics abstrai esta complexidade, permitindo aos utilizadores executar a inferência sem
sem configurar manualmente as âncoras. O exemplo seguinte demonstra o carregamento de um modelo pré-treinado para detect objectos:
from ultralytics import YOLO
# Load a pretrained YOLOv5 model (anchor-based architecture)
model = YOLO("yolov5su.pt")
# Run inference on a static image from the web
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected bounding boxes
results[0].show()
Para os interessados nos fundamentos matemáticos destes sistemas, plataformas educativas como Coursera e DeepLearning.AI oferecem cursos aprofundados sobre redes neurais convolucionais e deteção de objectos.