Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Rede de pirâmide de caraterísticas (FPN)

Saiba como as redes de pirâmides de caraterísticas (FPN) permitem a deteção de objectos em várias escalas - aumentando a precisão de objectos pequenos e grandes no YOLO11 e em sistemas CV modernos.

Uma Feature Pyramid Network (FPN) é uma arquitetura especializada utilizada em visão computacional (CV) para melhorar a detecção de objetos em diferentes escalas. Ela serve como um componente crítico em muitas arquiteturas de detecção de objetos, projetadas para superar as limitações dos detectores tradicionais que têm dificuldade em reconhecer itens pequenos. Ao gerar uma pirâmide de características multiescala a partir de uma imagem de entrada de resolução única, as FPNs permitem que os modelos detect estruturas grandes quanto detalhes minúsculos com alta precisão. Essa arquitetura normalmente fica entre o backbone (que extrai características) e o cabeça de detecção (que prevê classes e caixas), enriquecendo efetivamente as informações semânticas passadas para as camadas finais.

Compreender a arquitetura FPN

O objetivo principal de uma FPN é aproveitar a hierarquia piramidal multiescala inerente às redes neurais convolucionais profundas (CNNs) , reduzindo o custo computacional associado ao processamento separado de múltiplas escalas de imagem. A arquitetura consiste em três vias principais que processam dados visuais:

  1. Caminho ascendente: Trata-se do cálculo feed-forward da rede principal, como as Redes Residuais (ResNet). À medida que a imagem se move pelas camadas, a resolução espacial diminui (a imagem fica menor), enquanto o valor semântico (o contexto do que está na imagem) aumenta.
  2. Caminho descendente: esta etapa cria características de maior resolução através do aumento da resolução espacial mais grosseira, mas semanticamente mais forte, mapas de características de níveis piramidais mais elevados . Isso recupera os detalhes espaciais perdidos durante o processo ascendente.
  3. Ligações laterais: Estas ligações fundem os mapas de características com amostragem aumentada da via descendente com os mapas de características correspondentes da via ascendente. Esta fusão combina o contexto semântico de alto nível com informações de textura e bordas de baixo nível, aumentando significativamente a precisão. O artigo de investigação original sobre FPN FPN demonstra como essa técnica alcança resultados de ponta em benchmarks padrão.

Importância na IA moderna

Antes das FPNs, os detetores de objetos geralmente tinham de escolher entre usar apenas a camada superior (boa para objetos grandes, ruim para objetos pequenos) ou processar uma pirâmide de imagens (lento e computacionalmente caro). As FPNs oferecem uma solução que reúne o "melhor dos dois mundos". Essa capacidade é vital para a inferência em tempo real, permitindo que modelos avançados como o YOLO26 e YOLO11 mantenham altas taxas de quadros enquanto identificam com precisão objetos que ocupam apenas alguns pixels da tela.

Aplicações no Mundo Real

A capacidade de tratar dados em várias escalas torna as FPNs indispensáveis em vários sectores que dependem de inteligência artificial (IA).

  • Veículos autónomos: Os sistemas de condução autónoma devem track simultaneamente veículos track nas proximidades e semáforos ou peões distantes. As FPNs permitem que a pilha de percepção processe esses elementos na mesma passagem de inferência, garantindo que as decisões de segurança sejam tomadas instantaneamente. Conjuntos de dados líderes, como o Waymo Open Dataset , são frequentemente usados para treinar essas capacidades em múltiplas escalas .
  • Análise de imagens médicas: Na imagem de diagnóstico, identificar anomalias requer precisão em todas as escalas. Um tumor pode ser uma grande massa ou um pequeno nódulo em estágio inicial. Os FPNs aprimoram a segmentação de imagens modelos de segmentação de imagens usados em radiologia, ajudando os médicos detect de tamanhos variados em raios-X e ressonâncias magnéticas, como frequentemente discutido em revistas de IA em radiologia.

FPN vs. BiFPN e PANet

Embora a FPN tenha revolucionado a extração de características, arquiteturas mais recentes aperfeiçoaram o conceito.

  • BiFPN (Rede Piramidal de Características Bidirecional): Usada no EfficientDet, introduz pesos aprendíveis para aprender a importância de diferentes características de entrada e adiciona caminhos bottom-up aos caminhos top-down existentes.
  • PANet (Path Aggregation Network): Frequentemente utilizada em YOLO , a PANet adiciona um caminho ascendente extra à estrutura FPN para encurtar o caminho da informação para características de baixo nível, melhorando ainda mais a precisão da localização .
  • YOLO Ultralytics : iterações modernas como o YOLO26 utilizam variantes avançadas dessas redes de agregação para maximizar o equilíbrio entre velocidade e precisão média (mAP).

Exemplo de implementação

As bibliotecas de deep learning e a Ultralytics lidam internamente com as complexidades das FPNs. O exemplo a seguir demonstra como carregar um modelo que utiliza uma estrutura de pirâmide de recursos para detect .

from ultralytics import YOLO

# Load the YOLO26 model, which utilizes an advanced feature pyramid architecture
# The 'n' suffix stands for nano, a lightweight version of the model
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects ranging from small to large
# The model internally uses its FPN neck to aggregate features at multiple scales
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora