Saiba como as redes de pirâmides de caraterísticas (FPN) permitem a deteção de objectos em várias escalas - aumentando a precisão de objectos pequenos e grandes no YOLO11 e em sistemas CV modernos.
Uma Feature Pyramid Network (FPN) é um componente dos modelos de aprendizagem profunda, em particular das arquitecturas de deteção de objectos, concebido para melhorar a deteção de objectos a várias escalas. Em qualquer imagem, os objectos podem parecer grandes ou pequenos, dependendo do seu tamanho e distância da câmara. O FPN aborda este desafio criando eficientemente uma representação multi-escala de caraterísticas, permitindo que um modelo reconheça simultaneamente um carro pequeno e distante e um camião grande e próximo com elevada precisão. Funciona como uma ponte, ou "pescoço", entre o extrator de caraterísticas principal e o componente de previsão final de uma rede.
Um FPN funciona através da combinação de caraterísticas de baixa resolução e semanticamente fortes com caraterísticas de alta resolução e semanticamente fracas. Este processo é normalmente conseguido através de uma estrutura com duas vias e ligações laterais.
Num modelo típico de deteção de objectos, a arquitetura é dividida em espinha dorsal, pescoço e cabeça. O FPN é uma escolha popular para o componente do pescoço. A sua função principal é agregar as caraterísticas extraídas pela espinha dorsal antes de serem utilizadas para a tarefa de deteção final. Ao fornecer uma representação de caraterísticas rica e multi-escala, os FPNs permitem que modelos como o YOLO11 tenham um desempenho robusto numa vasta gama de tamanhos de objectos. Esta abordagem é mais eficiente do ponto de vista computacional do que o processamento de uma imagem em várias resoluções separadamente, uma vez que reutiliza as caraterísticas calculadas na única passagem de avanço do backbone. Muitos dos modelos mais avançados tiram partido deste conceito, como se pode ver em várias comparações de modelos YOLO.
Os FPNs são parte integrante de muitas aplicações modernas de visão por computador (CV) em que a deteção de objectos em várias escalas é fundamental.
Embora a FPN tenha marcado um avanço significativo, as arquitecturas mais recentes desenvolveram o conceito. Um exemplo notável é a BiFPN (Bi-diretional Feature Pyramid Network), introduzida no documento EfficientDet da Google Research. Ao contrário do caminho simples de cima para baixo da FPN, a BiFPN introduz ligações bidireccionais (tanto de cima para baixo como de baixo para cima) e utiliza a fusão de caraterísticas ponderadas, permitindo que a rede aprenda a importância das diferentes caraterísticas de entrada. Isto conduz frequentemente a um melhor desempenho e eficiência, como se pode ver em comparações como EfficientDet vs. YOLO11. Embora a FPN seja um conceito fundamental, a BiFPN representa uma abordagem mais avançada e optimizada da fusão de caraterísticas multi-escala.