Saiba como as redes de pirâmides de caraterísticas (FPN) permitem a deteção de objectos em várias escalas - aumentando a precisão de objectos pequenos e grandes no YOLO11 e em sistemas CV modernos.
Uma Feature Pyramid Network (FPN) é uma arquitetura especializada utilizada em visão computacional (CV) para melhorar a detecção de objetos em diferentes escalas. Ela serve como um componente crítico em muitas arquiteturas de detecção de objetos, projetadas para superar as limitações dos detectores tradicionais que têm dificuldade em reconhecer itens pequenos. Ao gerar uma pirâmide de características multiescala a partir de uma imagem de entrada de resolução única, as FPNs permitem que os modelos detect estruturas grandes quanto detalhes minúsculos com alta precisão. Essa arquitetura normalmente fica entre o backbone (que extrai características) e o cabeça de detecção (que prevê classes e caixas), enriquecendo efetivamente as informações semânticas passadas para as camadas finais.
O objetivo principal de uma FPN é aproveitar a hierarquia piramidal multiescala inerente às redes neurais convolucionais profundas (CNNs) , reduzindo o custo computacional associado ao processamento separado de múltiplas escalas de imagem. A arquitetura consiste em três vias principais que processam dados visuais:
Antes das FPNs, os detetores de objetos geralmente tinham de escolher entre usar apenas a camada superior (boa para objetos grandes, ruim para objetos pequenos) ou processar uma pirâmide de imagens (lento e computacionalmente caro). As FPNs oferecem uma solução que reúne o "melhor dos dois mundos". Essa capacidade é vital para a inferência em tempo real, permitindo que modelos avançados como o YOLO26 e YOLO11 mantenham altas taxas de quadros enquanto identificam com precisão objetos que ocupam apenas alguns pixels da tela.
A capacidade de tratar dados em várias escalas torna as FPNs indispensáveis em vários sectores que dependem de inteligência artificial (IA).
Embora a FPN tenha revolucionado a extração de características, arquiteturas mais recentes aperfeiçoaram o conceito.
As bibliotecas de deep learning e a Ultralytics lidam internamente com as complexidades das FPNs. O exemplo a seguir demonstra como carregar um modelo que utiliza uma estrutura de pirâmide de recursos para detect .
from ultralytics import YOLO
# Load the YOLO26 model, which utilizes an advanced feature pyramid architecture
# The 'n' suffix stands for nano, a lightweight version of the model
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects ranging from small to large
# The model internally uses its FPN neck to aggregate features at multiple scales
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()