Glosario

Red piramidal de características (FPN)

Descubra cómo las redes de pirámides de características (FPN) permiten la detección de objetos a múltiples escalas, aumentando la precisión de los objetos pequeños y grandes en YOLO11 y en los sistemas CV modernos.

Una red piramidal de características (FPN) es una arquitectura fundamental en la moderna visión por ordenador (CV) diseñada para detect objetos a distintas escalas con gran precisión. La arquitectura tradicional aprendizaje profundo (AD) a menudo problemas para reconocer objetos pequeños porque se basan en capas profundas en las que se pierde resolución espacial. FPN aborda construyendo una estructura piramidal de mapas de características que combina características de baja resolución y semánticamente sólidas con características de alta resolución y espacialmente detalladas. Este diseño actúa como cuello" crucial en muchos arquitecturas de detección de objetosque conecta el extractor de características inicial, conocido como columna vertebral-a las capas de predicción finales, o el cabeza de detección. Al compartir eficazmente la información entre los distintos niveles, las FPN permiten modelos como YOLO11 identificar con precisión tanto pequeños detalles distantes y sujetos grandes y prominentes dentro de una misma imagen.

Comprender la arquitectura

La innovación fundamental de una red piramidal de características reside en cómo procesa la información visual a través de tres distintas. Esta estructura permite a la red mantener una rica representación de la imagen a través de múltiples resoluciones sin incurrir en un enorme coste computacional.

Etapa ascendente: Esta etapa corresponde al paso hacia delante de una norma red neuronal convolucional (CNN)como ResNet. A medida que la imagen pasa por la red, las dimensiones espaciales disminuyen mientras que el valor semántico (comprensión contextual) aumenta. contextual).
Vía descendente: Para recuperar el detalle espacial perdido, la red muestrea los mapas de características espacialmente gruesas pero semánticamente ricas de las capas más profundas. pero semánticamente ricos de las capas más profundas. Este proceso reconstruye eficazmente mapas que contienen un contexto sólido.
Conexiones laterales: El paso crucial consiste en fusionar los mapas sobremuestreados de la vía descendente con los mapas correspondientes de la vía ascendente. Estas conexiones laterales fusionan el contexto semántico de alto nivel semántico de alto nivel con las texturas y bordes de bajo nivel encontrados en capas anteriores, creando una pirámide de características multiescala. La página original FPN original detalla cómo esta fusión aumenta significativamente el rendimiento en conjuntos de datos de referencia como COCO.

Por qué es importante la detección multiescala

En el mundo real, los objetos aparecen en tamaños muy diferentes en función de su distancia a la cámara. A Un clasificador estándar puede detect fácilmente un coche en el encuadre, pero no un peatón en el fondo. Los FPN resuelven este problema asignando tareas de predicción a distintos niveles de la pirámide. Los objetos grandes se detectan en los Los objetos grandes se detectan en los mapas de características profundos de baja resolución, mientras que los pequeños se detectan en los mapas de características fusionados de alta resolución. Esta capacidad de capacidad es esencial para lograr una precisión y recuperación en diversos entornos, distinguiendo los modelos equipados con FPN de los antiguos detectores de escala única.

Aplicaciones en el mundo real

La capacidad de manejar datos a múltiples escalas hace que los FPN sean indispensables en diversas industrias que dependen de inteligencia artificial (IA).

Vehículos autónomos: Los sistemas de conducción autónoma deben track simultáneamente los vehículos cercanos y los semáforos distantes. Un FPN permite a la procesar estos elementos en el mismo paso de inferencia, garantizando que las decisiones de seguridad críticas se tomen en tiempo real. en tiempo real. Las principales investigaciones de organizaciones como Waymo destaca la importancia de este tipo de multiescala para la navegación.
Análisis de imágenes médicas: En diagnóstico por imagen, la identificación de anomalías requiere precisión a distintas escalas. Un tumor puede ser una gran masa o un diminuto nódulo en fase inicial. Los FPN mejoran segmentación de imágenes modelos utilizados en radiología, que ayudan a los médicos detect patologías de distintos tamaños en radiografías y resonancias magnéticas, como se expone en Radiology AI journals.

FPN frente a BiFPN

Aunque la FPN revolucionó la extracción de características, las nuevas arquitecturas han perfeccionado el concepto. Una evolución notable es la Bi-directional Feature Pyramid Network (BiFPN), introducida por Google Research en la arquitectura EfficientDet. A diferencia de FPN estándar, que fluye en un solo sentido (de arriba abajo), BiFPN añade rutas de abajo arriba y aprende pesos específicos para cada conexión, dando prioridad a las características más importantes. conexión, dando prioridad a las características más importantes. Sin embargo, los diseños FPN estándar y sus variantes siguen siendo la para modelos de alto rendimiento como YOLO11que equilibran velocidad y precisión de forma eficaz para la mayoría de inferencia en tiempo real en tiempo real.

Ejemplo de aplicación

Las bibliotecas modernas manejan internamente las complejidades de los FPN. El siguiente ejemplo muestra el uso de la librería Ultralytics YOLO que incorpora estructuras piramidales de características avanzadas para detect objetos de todos los tamaños sin problemas.

from ultralytics import YOLO

# Load the YOLO11 model, which utilizes a feature pyramid architecture for multi-scale detection
model = YOLO("yolo11n.pt")

# Run inference on an image to detect objects ranging from small to large
results = model.predict("path/to/street_scene.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

Red piramidal de características (FPN)

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Comprender la arquitectura

Por qué es importante la detección multiescala

Aplicaciones en el mundo real

FPN frente a BiFPN

Ejemplo de aplicación

Leer más en esta categoría

Aprendizaje autodirigido para la eliminación de ruido: un análisis paso a paso

Tendencias futuras en la detección de objetos: 7 aspectos clave a tener en cuenta

Mejora de la reidentificación de vehículos con los modelosYOLO Ultralytics

Únase a la comunidad Ultralytics