Saiba como as redes de pirâmides de caraterísticas (FPN) permitem a deteção de objectos em várias escalas - aumentando a precisão de objectos pequenos e grandes no YOLO11 e em sistemas CV modernos.
A Feature Pyramid Network (FPN) é uma arquitetura fundamental nas modernas visão por computador (CV) concebida para detect objectos a escalas variáveis com elevada precisão. A arquitetura tradicional aprendizagem profunda (DL) tradicionais têm dificuldade em reconhecer pequenos objectos porque dependem de camadas profundas onde a resolução espacial se perde. O FPN resolve este problema através da construção de uma estrutura piramidal de mapas de caraterísticas que combina de baixa resolução e caraterísticas semanticamente fortes com caraterísticas de alta resolução e espacialmente detalhadas. Esta conceção actua como um crucial em muitos arquitecturas de deteção de objectosligando o extrator de caraterísticas inicial - conhecido como espinha dorsal-às camadas de previsão final, ou cabeça de deteção. Ao partilhar eficazmente informações entre diferentes níveis, as FPNs permitem modelos como YOLO11 identifiquem com exatidão tanto detalhes minúsculos e distantes detalhes minúsculos e distantes e objectos grandes e proeminentes numa única imagem.
A principal inovação de uma rede Feature Pyramid reside no modo como processa a informação visual através de três fases distintas. Esta estrutura permite que a rede mantenha uma representação rica da imagem em várias resoluções sem incorrer num enorme custo computacional.
Em cenários do mundo real, os objectos aparecem com tamanhos muito diferentes, dependendo da sua distância à câmara. A classificador padrão pode detetar facilmente um carro a preencher o enquadramento, mas não consegue detect um peão em segundo plano. Os FPNs resolvem este problema atribuindo tarefas de previsão a diferentes níveis da pirâmide. Os objectos grandes são detectados nos Os objectos grandes são detectados nos mapas de caraterísticas profundas e de baixa resolução, enquanto os objectos pequenos são detectados nos mapas de caraterísticas fundidas e de alta resolução. Esta Esta capacidade é essencial para alcançar elevados precisão e recordação em diversos ambientes, distinguindo os modelos equipados com FPN dos detectores de escala única mais antigos.
A capacidade de tratar dados em várias escalas torna as FPNs indispensáveis em vários sectores que dependem de inteligência artificial (IA).
Enquanto a FPN revolucionou a extração de caraterísticas, as arquitecturas mais recentes aperfeiçoaram o conceito. Uma evolução notável é a Rede de Pirâmide de Caraterísticas Bi-direcional (BiFPN), introduzida por PesquisaGoogle na arquitetura EfficientDet. Ao contrário da da FPN padrão que flui num sentido (de cima para baixo), a BiFPN adiciona caminhos de baixo para cima e aprende pesos específicos para cada conexão, dando prioridade a caraterísticas mais importantes. No entanto, os projectos FPN padrão e as suas variantes continuam a ser a base para modelos de alto desempenho como o YOLO11equilibrando velocidade e precisão de forma eficaz para a maioria dos inferência em tempo real em tempo real.
As bibliotecas modernas tratam internamente as complexidades dos FPNs. O exemplo seguinte demonstra a utilização da biblioteca Ultralytics YOLO do Ultralytics, que incorpora estruturas de pirâmide de caraterísticas avançadas para detect objectos de todos os tamanhos sem problemas.
from ultralytics import YOLO
# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")
# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()