Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

Rede de pirâmide de caraterísticas (FPN)

Saiba como as redes de pirâmides de caraterísticas (FPN) permitem a deteção de objectos em várias escalas - aumentando a precisão de objectos pequenos e grandes no YOLO11 e em sistemas CV modernos.

Uma Feature Pyramid Network (FPN) é um componente dos modelos de aprendizagem profunda, em particular das arquitecturas de deteção de objectos, concebido para melhorar a deteção de objectos a várias escalas. Em qualquer imagem, os objectos podem parecer grandes ou pequenos, dependendo do seu tamanho e distância da câmara. O FPN aborda este desafio criando eficientemente uma representação multi-escala de caraterísticas, permitindo que um modelo reconheça simultaneamente um carro pequeno e distante e um camião grande e próximo com elevada precisão. Funciona como uma ponte, ou "pescoço", entre o extrator de caraterísticas principal e o componente de previsão final de uma rede.

Como funciona uma rede em pirâmide de caraterísticas

Um FPN funciona através da combinação de caraterísticas de baixa resolução e semanticamente fortes com caraterísticas de alta resolução e semanticamente fracas. Este processo é normalmente conseguido através de uma estrutura com duas vias e ligações laterais.

  1. Caminho de baixo para cima: Esta é a passagem padrão para a frente de uma Rede Neuronal Convolucional (CNN), que serve como espinha dorsal do modelo. À medida que uma imagem passa por camadas sucessivas, os mapas de caraterísticas resultantes diminuem em tamanho espacial mas aumentam em profundidade semântica, o que significa que captam conceitos mais abstractos.
  2. Caminho descendente: A rede pega então no mapa de caraterísticas da camada mais profunda (que é pequena, mas rica em informação) e começa a aumentá-lo.
  3. Ligações laterais: À medida que a via descendente reconstrói mapas de caraterísticas maiores, funde-os com os mapas de caraterísticas correspondentes da via ascendente. Esta fusão enriquece as camadas de amostragem superior com os detalhes mais finos e localizados das camadas anteriores. O resultado é uma "pirâmide" de mapas de caraterísticas, cada um deles rico em detalhes semânticos e espaciais, que é depois enviado para a cabeça de deteção para previsão. O documento de investigação original da FPN fornece uma explicação técnica pormenorizada deste processo.

O papel do FPN na deteção de objectos

Num modelo típico de deteção de objectos, a arquitetura é dividida em espinha dorsal, pescoço e cabeça. O FPN é uma escolha popular para o componente do pescoço. A sua função principal é agregar as caraterísticas extraídas pela espinha dorsal antes de serem utilizadas para a tarefa de deteção final. Ao fornecer uma representação de caraterísticas rica e multi-escala, os FPNs permitem que modelos como o YOLO11 tenham um desempenho robusto numa vasta gama de tamanhos de objectos. Esta abordagem é mais eficiente do ponto de vista computacional do que o processamento de uma imagem em várias resoluções separadamente, uma vez que reutiliza as caraterísticas calculadas na única passagem de avanço do backbone. Muitos dos modelos mais avançados tiram partido deste conceito, como se pode ver em várias comparações de modelos YOLO.

Aplicações no Mundo Real

Os FPNs são parte integrante de muitas aplicações modernas de visão por computador (CV) em que a deteção de objectos em várias escalas é fundamental.

  • Veículos autónomos: Os carros autónomos têm de detetar peões, veículos, sinais de trânsito e marcas de faixa de rodagem a várias distâncias. Um FPN ajuda o sistema de perceção do veículo, detalhado em recursos de instituições como a Universidade Carnegie Mellon, a identificar um peão distante e um carro próximo no mesmo enquadramento, o que é essencial para uma navegação segura.
  • Análise de imagens médicas: Em radiologia, os FPNs podem ajudar a analisar exames médicos para detetar anomalias de diferentes tamanhos, como pequenas lesões e grandes tumores. Esta capacidade multi-escala permite diagnósticos automatizados mais abrangentes e precisos em áreas como a patologia e a oncologia, conforme discutido numa investigação publicada pelos Institutos Nacionais de Saúde (NIH).

FPN vs. BiFPN

Embora a FPN tenha marcado um avanço significativo, as arquitecturas mais recentes desenvolveram o conceito. Um exemplo notável é a BiFPN (Bi-diretional Feature Pyramid Network), introduzida no documento EfficientDet da Google Research. Ao contrário do caminho simples de cima para baixo da FPN, a BiFPN introduz ligações bidireccionais (tanto de cima para baixo como de baixo para cima) e utiliza a fusão de caraterísticas ponderadas, permitindo que a rede aprenda a importância das diferentes caraterísticas de entrada. Isto conduz frequentemente a um melhor desempenho e eficiência, como se pode ver em comparações como EfficientDet vs. YOLO11. Embora a FPN seja um conceito fundamental, a BiFPN representa uma abordagem mais avançada e optimizada da fusão de caraterísticas multi-escala.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência