Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Caixas de ancoragem

Saiba como as caixas de ancoragem permitem a deteção de objectos com base em ancoragem, priors para classificação, regressão e NMS, com aplicações na condução autónoma e no retalho.

As caixas de ancoragem são um conceito fundamental na arquitetura de muitos modelos de deteção de objectos, actuando como referências predefinidas para prever a localização e o tamanho dos objectos. Em vez de procurar objectos de dimensões arbitrárias numa imagem dimensões arbitrárias, o modelo utiliza estas formas fixas - definidas por alturas e larguras específicas - como pontos de partida, ou priors. Esta abordagem simplifica o processo de aprendizagem, transformando a difícil tarefa de previsão de coordenadas absolutas de previsão de coordenadas absolutas num problema de regressão mais fácil de gerir, em que a rede aprende a ajustar, ou "compensar", estes modelos para se adaptarem aos objectos reais. Esta Esta técnica tem sido fundamental para o sucesso de arquitecturas populares como a família família Faster R-CNN e os primeiros detectores de estágio único.

Como funcionam as caixas de ancoragem

O mecanismo das caixas de ancoragem envolve a colocação da imagem de entrada numa grelha densa de centros. Em cada célula da grelha, várias caixas de ancoragem com diferentes rácios de aspeto e escalas são geradas para acomodar objectos de diferentes formas, como peões altos ou veículos largos. Durante a fase de Durante a fase de treino do modelo, o sistema faz corresponder estas âncoras a objectos reais utilizando uma métrica chamada Intersecção sobre União (IoU). As âncoras que se sobrepõem significativamente a um objeto alvo são rotuladas como amostras positivas.

A espinha dorsal do detetor extrai caraterísticas da imagem, que a cabeça de deteção utiliza para executar duas tarefas paralelas para cada âncora positiva:

  • Classificação: O modelo prevê a probabilidade de a âncora conter um objeto específico atribuindo uma pontuação de confiança.
  • Box Regression: A rede calcula os desvios de coordenadas exactos necessários para remodelar a âncora numa caixa delimitadora final que envolve firmemente o objeto objeto.

Para lidar com a sobreposição de previsões para o mesmo objeto, um passo de pós-processamento conhecido como Supressão Não Máxima (NMS) filtra filtra as caixas redundantes, retendo apenas a que tem maior confiança. Estruturas como PyTorch e TensorFlow fornecem as ferramentas computacionais necessárias para implementar estas operações complexas de forma eficiente.

Âncoras vs. Conceitos relacionados

Para compreender as caixas de ancoragem é necessário distingui-las de termos semelhantes na visão computacional (CV).

  • Caixas de ancoragem vs. Caixas de delimitação: Uma caixa de ancoragem é um modelo teórico e fixo utilizado como hipótese durante o processamento. Uma caixa delimitadora é a saída final e refinada que contém as coordenadas do objeto detectado.
  • Baseado em âncora vs. Livre de âncora: Tradicional tradicionais baseados em âncoras, como YOLOv5dependem dessas predefinições manuais. Em contraste, os modernos detectores detectores sem âncoras, como o Ultralytics YOLO11prevêem centros de objectos ou pontos-chave diretamente. Esta mudança simplifica a conceção do modelo, eliminando a necessidade de afinação de hiperparâmetros relacionados com as dimensões de ancoragem dimensões âncora, melhorando frequentemente a generalização em conjuntos de dados como COCO.

Aplicações no Mundo Real

A natureza estruturada das caixas de ancoragem torna-as particularmente eficazes em ambientes onde as formas dos objectos são consistentes e previsíveis.

  1. Condução autónoma: Os sistemas desenvolvidos para veículos autónomos baseiam-se na deteção de objectos padrão como carros, camiões e sinais de trânsito. Uma vez que estes objectos têm rácios de aspeto relativamente fixos, as caixas de ancoragem podem ser ajustadas para os capturar de forma eficiente. Empresas como a Waymo utilizam sofisticados pipelines de deteção para garantir a segurança em cenários de tráfego complexos.
  2. Gestão do inventário de retalho: Na análise de retalho, os sistemas de visão monitorizam as prateleiras para detect níveis de stock. Os produtos embalados têm normalmente formas uniformes, permitindo que os modelos baseados em âncoras contem com precisão contar itens e identificar produtos fora de stock. Esta automatização apoia a gestão de inventário orientada para a IA, reduzindo o trabalho manual.

Exemplo de código

Enquanto os modelos modernos como o YOLO11 não têm âncoras, as iterações anteriores como o YOLOv5 utilizam caixas de âncoras. O ultralytics abstrai esta complexidade, permitindo aos utilizadores executar a inferência sem sem configurar manualmente as âncoras. O exemplo seguinte demonstra o carregamento de um modelo pré-treinado para detect objectos:

from ultralytics import YOLO

# Load a pretrained YOLOv5 model (anchor-based architecture)
model = YOLO("yolov5su.pt")

# Run inference on a static image from the web
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detected bounding boxes
results[0].show()

Para os interessados nos fundamentos matemáticos destes sistemas, plataformas educativas como Coursera e DeepLearning.AI oferecem cursos aprofundados sobre redes neurais convolucionais e deteção de objectos.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora