Glossário

Rede de pirâmide de caraterísticas (FPN)

Saiba como as redes de pirâmides de caraterísticas (FPN) permitem a deteção de objectos em várias escalas - aumentando a precisão de objectos pequenos e grandes no YOLO11 e em sistemas CV modernos.

A Feature Pyramid Network (FPN) é uma arquitetura fundamental nas modernas visão por computador (CV) concebida para detect objectos a escalas variáveis com elevada precisão. A arquitetura tradicional aprendizagem profunda (DL) tradicionais têm dificuldade em reconhecer pequenos objectos porque dependem de camadas profundas onde a resolução espacial se perde. O FPN resolve este problema através da construção de uma estrutura piramidal de mapas de caraterísticas que combina de baixa resolução e caraterísticas semanticamente fortes com caraterísticas de alta resolução e espacialmente detalhadas. Esta conceção actua como um crucial em muitos arquitecturas de deteção de objectosligando o extrator de caraterísticas inicial - conhecido como espinha dorsal-às camadas de previsão final, ou cabeça de deteção. Ao partilhar eficazmente informações entre diferentes níveis, as FPNs permitem modelos como YOLO11 identifiquem com exatidão tanto detalhes minúsculos e distantes detalhes minúsculos e distantes e objectos grandes e proeminentes numa única imagem.

Compreender a arquitetura

A principal inovação de uma rede Feature Pyramid reside no modo como processa a informação visual através de três fases distintas. Esta estrutura permite que a rede mantenha uma representação rica da imagem em várias resoluções sem incorrer num enorme custo computacional.

Via de baixo para cima: Esta fase corresponde à passagem para a frente de uma norma rede neural convolucional (CNN)padrão, como ResNet. medida que a imagem passa pela rede, as dimensões espaciais diminuem enquanto o valor semântico (compreensão contextual) aumenta. compreensão contextual) aumenta.
Caminho de cima para baixo: Para recuperar os detalhes espaciais perdidos, a rede faz o upsample dos mapas de caraterísticas espacialmente mas semanticamente ricos mapas de caraterísticas das camadas mais profundas. Este processo reconstrói efetivamente mapas de alta resolução mapas de maior resolução que contêm um forte contexto.
Ligações laterais: O passo crucial consiste em fundir os mapas de amostragem superior da via descendente com os mapas correspondentes da via ascendente. Estas ligações laterais fundem o contexto semântico de alto nível de alto nível com as texturas e arestas de baixo nível encontradas nas camadas anteriores, criando uma pirâmide de caraterísticas multi-escala. O mapa original documento de investigação FPN original detalha como esta fusão aumenta significativamente o desempenho em conjuntos de dados de referência como COCO.

Porque é que a deteção em várias escalas é importante

Em cenários do mundo real, os objectos aparecem com tamanhos muito diferentes, dependendo da sua distância à câmara. A classificador padrão pode detetar facilmente um carro a preencher o enquadramento, mas não consegue detect um peão em segundo plano. Os FPNs resolvem este problema atribuindo tarefas de previsão a diferentes níveis da pirâmide. Os objectos grandes são detectados nos Os objectos grandes são detectados nos mapas de caraterísticas profundas e de baixa resolução, enquanto os objectos pequenos são detectados nos mapas de caraterísticas fundidas e de alta resolução. Esta Esta capacidade é essencial para alcançar elevados precisão e recordação em diversos ambientes, distinguindo os modelos equipados com FPN dos detectores de escala única mais antigos.

Aplicações no Mundo Real

A capacidade de tratar dados em várias escalas torna as FPNs indispensáveis em vários sectores que dependem de inteligência artificial (IA).

Veículos autónomos: Os sistemas de condução autónoma devem track simultaneamente os veículos próximos e os semáforos distantes. Um FPN permite que a permite que a pilha de perceção processe esses elementos na mesma passagem de inferência, garantindo que decisões críticas de segurança sejam tomadas em tempo real. Pesquisa líder de organizações como Waymo destaca a importância dessa compreensão em várias escalas para a navegação.
Análise de imagens médicas: Na imagiologia de diagnóstico diagnóstico por imagem, a identificação de anomalias requer precisão em várias escalas. Um tumor pode ser uma grande massa ou um pequeno, nódulo em fase inicial. Os FPNs melhoram segmentação de imagens modelos utilizados em radiologia, ajudando os clínicos detect patologias de diferentes tamanhos em radiografias e exames de ressonância magnética, como referido em Revistas de IA em radiologia.

FPN vs. BiFPN

Enquanto a FPN revolucionou a extração de caraterísticas, as arquitecturas mais recentes aperfeiçoaram o conceito. Uma evolução notável é a Rede de Pirâmide de Caraterísticas Bi-direcional (BiFPN), introduzida por PesquisaGoogle na arquitetura EfficientDet. Ao contrário da da FPN padrão que flui num sentido (de cima para baixo), a BiFPN adiciona caminhos de baixo para cima e aprende pesos específicos para cada conexão, dando prioridade a caraterísticas mais importantes. No entanto, os projectos FPN padrão e as suas variantes continuam a ser a base para modelos de alto desempenho como o YOLO11equilibrando velocidade e precisão de forma eficaz para a maioria dos inferência em tempo real em tempo real.

Exemplo de implementação

As bibliotecas modernas tratam internamente as complexidades dos FPNs. O exemplo seguinte demonstra a utilização da biblioteca Ultralytics YOLO do Ultralytics, que incorpora estruturas de pirâmide de caraterísticas avançadas para detect objectos de todos os tamanhos sem problemas.

from ultralytics import YOLO

# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

Rede de pirâmide de caraterísticas (FPN)

Treine os modelosYOLO Ultralytics para simplificar os fluxos de trabalho em todos os sectores

Solução de licenciamento empresarial flexível para impulsionar sua inovação

Treine modelos de IA em segundos com o Ultralytics YOLO

Compreender a arquitetura

Porque é que a deteção em várias escalas é importante

Aplicações no Mundo Real

FPN vs. BiFPN

Exemplo de implementação

Leia mais nesta categoria

Aprendizagem auto-supervisionada para redução de ruído: uma análise passo a passo

Futuras tendências na deteção de objectos: 7 aspectos fundamentais a ter em conta

Melhorar a reidentificação de veículos com modelos Ultralytics YOLO

Junte-se à comunidade Ultralytics