Explore como as redes Feature Pyramid Networks (FPN) aprimoram a detecção de objetos em várias escalas. Saiba como Ultralytics usa FPNs avançadas para detect objetos detect e grandes.
Uma Feature Pyramid Network (FPN) é um componente arquitetónico especializado utilizado na sistemas de visão computacional (CV) para melhorar a deteção de objetos em várias escalas. Ela resolve de forma eficaz um desafio de longa data na análise de imagens: reconhecer tanto estruturas grandes e proeminentes quanto detalhes minúsculos e distantes na mesma imagem. Ao gerar uma representação multiescala da entrada — conceitualmente semelhante a uma pirâmide —, as FPNs permitem que as redes neurais extraiam informações semânticas ricas em todos os níveis de resolução. Essa arquitetura normalmente fica entre o backbone, que extrai características brutas, e o cabeça de detecção, que prevê classes de objetos e caixas delimitadoras.
A principal inovação da FPN reside na forma como processa a informação. As tradicionais (CNNs) criam naturalmente uma hierarquia de características em que a imagem de entrada é progressivamente reduzida. Embora isso aprofunde a compreensão semântica (saber o que está na imagem), muitas vezes degrada a resolução espacial (saber exatamente onde está), fazendo com que pequenos objetos desapareçam.
As FPNs abordam isso através de um processo de três etapas:
Essa combinação resulta numa pirâmide em que cada nível tem uma semântica forte e uma boa localização, aumentando significativamente precisão e a recuperação em todos os tamanhos de objetos.
As FPNs são a pedra angular das arquiteturas de deteção de objetos. Antes da sua introdução, os modelos tinham de escolher entre velocidade (usando apenas a camada final) ou precisão (processando uma pirâmide de imagens, o que é muito lento). As FPNs oferecem a melhor solução dos dois mundos, permitindo inferência em tempo real sem sacrificar as capacidades de detecção de pequenos objetos.
Essa eficiência é crucial para modelos avançados como o YOLO26, que utiliza redes de agregação sofisticadas inspiradas nos princípios FPN (como PANet) para alcançar desempenho de ponta. A arquitetura garante que, independentemente de o modelo ser implantado em dispositivos de ponta ou servidores poderosos através da Ultralytics , ele mantenha alta precisão em diversos conjuntos de dados.
A capacidade multiescala das FPNs torna-as indispensáveis em indústrias onde a segurança e a precisão são fundamentais.
É útil distinguir o FPN padrão das suas variantes evoluídas encontradas em arquiteturas mais recentes.
Bibliotecas avançadas como ultralytics lidar com a complexidade da construção da FPN internamente. Quando carrega um
modelo como o YOLO26, a arquitetura inclui automaticamente essas camadas de agregação de recursos para maximizar o desempenho.
from ultralytics import YOLO
# Load the YOLO26 model, which uses advanced feature pyramid principles internally
# The 'n' suffix indicates the nano version, optimized for speed
model = YOLO("yolo26n.pt")
# Perform inference on an image containing objects of various sizes
# The model's neck (FPN-based) aggregates features to detect small and large items
results = model("https://ultralytics.com/images/bus.jpg")
# Display results to see bounding boxes around buses (large) and people (small)
results[0].show()