Descubra como os detetores baseados em âncoras revolucionam a detecção de objetos com localização precisa, adaptabilidade de escala e aplicações no mundo real.
Detetores baseados em âncoras são uma classe fundamental de modelos de detecção de objetos em visão computacional. Esses modelos operam usando um conjunto predefinido de caixas, conhecidas como caixas de âncora, para identificar e localizar objetos dentro de uma imagem. As caixas de âncora são essencialmente uma grade de modelos com vários tamanhos e proporções que são dispostas em mosaico na imagem. O modelo prevê como deslocar e dimensionar essas âncoras para corresponder às caixas delimitadoras verdadeiras dos objetos, juntamente com uma pontuação de confiança indicando a presença de um objeto. Essa abordagem simplifica o problema de encontrar objetos, transformando-o em uma tarefa de regressão e classificação em relação a essas âncoras fixas.
Exemplos proeminentes de arquiteturas baseadas em âncoras incluem a família R-CNN, como o Faster R-CNN, e os primeiros detectores de estágio único como o SSD (Single Shot MultiBox Detector) e muitos modelos YOLO, incluindo o altamente bem-sucedido Ultralytics YOLOv5.
A ideia central por trás da detecção baseada em âncoras é usar um conjunto de caixas de referência predefinidas como ponto de partida. Durante o processo de treinamento do modelo, o detector aprende a executar duas tarefas principais para cada caixa âncora:
Essas previsões são feitas pelo detection head do modelo após processar as características da imagem extraídas pelo backbone. Como um único objeto pode ser detectado por várias anchor boxes, uma etapa de pós-processamento chamada Non-Maximum Suppression (NMS) é usada para filtrar detecções redundantes e manter apenas a caixa de melhor ajuste. O desempenho desses modelos é frequentemente avaliado usando métricas como mean Average Precision (mAP) e Intersection over Union (IoU).
Nos últimos anos, os detectores sem âncora surgiram como uma alternativa popular. Ao contrário dos modelos baseados em âncoras, as abordagens sem âncora preveem as localizações e os tamanhos dos objetos diretamente, muitas vezes identificando pontos-chave (como centros ou cantos de objetos) ou prevendo distâncias de um ponto até os limites do objeto, eliminando a necessidade de formas de âncora predefinidas.
As principais diferenças incluem:
Embora os detectores baseados em âncoras como o YOLOv4 tenham sido altamente bem-sucedidos, muitas arquiteturas modernas, incluindo o Ultralytics YOLO11, adotaram designs sem âncoras para aproveitar seus benefícios em simplicidade e eficiência. Você pode explorar as vantagens da detecção sem âncoras no YOLO11 e ver comparações entre diferentes modelos YOLO.
Os detetores baseados em âncoras são amplamente utilizados em várias aplicações onde os objetos têm formas e tamanhos relativamente padronizados.
O desenvolvimento e a implantação de modelos de detecção de objetos, sejam baseados em âncoras ou sem âncoras, envolvem o uso de frameworks como PyTorch ou TensorFlow e bibliotecas como OpenCV. Plataformas como o Ultralytics HUB oferecem fluxos de trabalho simplificados para o treinamento de modelos personalizados, gerenciamento de conjuntos de dados e implantação de soluções, suportando várias arquiteturas de modelos. Para mais aprendizado, recursos como o Papers With Code listam modelos de última geração, e cursos de plataformas como DeepLearning.AI cobrem conceitos fundamentais.