Saiba como as caixas de ancoragem permitem a deteção de objectos com base em ancoragem, priors para classificação, regressão e NMS, com aplicações na condução autónoma e no retalho.
As caixas de ancoragem são um componente fundamental em muitos modelos de deteção de objectos baseados em ancoragem, servindo como um conjunto predefinido de caixas de referência com alturas e larguras específicas. Estas caixas actuam como priors, ou suposições educadas, sobre a potencial localização e escala dos objectos numa imagem. Em vez de procurar objectos às cegas, os modelos utilizam estas âncoras como pontos de partida, prevendo deslocamentos para refinar a sua posição e tamanho de modo a corresponder aos objectos reais. Esta abordagem transforma a tarefa complexa de localização de objectos num problema de regressão mais fácil de gerir, em que o modelo aprende a ajustar estes modelos em vez de gerar caixas a partir do zero.
O mecanismo principal envolve a colocação de uma imagem em mosaicos com uma grelha densa de caixas de ancoragem em várias posições. Em cada posição, são utilizadas várias âncoras com diferentes escalas e proporções para garantir a deteção eficaz de objectos de diversas formas e tamanhos. Durante o processo de treino do modelo, a espinha dorsal do detetor extrai primeiro um mapa de caraterísticas da imagem de entrada. A cabeça de deteção utiliza então estas caraterísticas para realizar duas tarefas para cada caixa de ancoragem:
O modelo utiliza métricas como a Intersecção sobre a União (IoU) para determinar quais as caixas de ancoragem que melhor correspondem aos objectos da verdade terrestre durante o treino. Após a previsão, é aplicado um passo de pós-processamento denominado Supressão Não Máxima (NMS) para eliminar caixas redundantes e sobrepostas para o mesmo objeto.
É importante distinguir as caixas de ancoragem de termos relacionados na visão computacional:
A abordagem estruturada das caixas de ancoragem torna-as eficazes em cenários em que os objectos têm formas e tamanhos previsíveis.
Estes modelos são normalmente desenvolvidos utilizando poderosas estruturas de aprendizagem profunda, como o PyTorch e o TensorFlow. Para uma aprendizagem contínua, plataformas como DeepLearning.AI oferecem cursos abrangentes sobre os fundamentos da visão computacional.