Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Red piramidal de características (FPN)

Descubra cómo las redes de pirámides de características (FPN) permiten la detección de objetos a múltiples escalas, aumentando la precisión de los objetos pequeños y grandes en YOLO11 y en los sistemas CV modernos.

Una red piramidal de características (FPN) es una arquitectura especializada utilizada en visión artificial (CV) para mejorar la detección de objetos a diferentes escalas. Es un componente fundamental en muchas arquitecturas de detección de objetos, diseñadas para superar las limitaciones de los detectores tradicionales que tienen dificultades para reconocer objetos pequeños. Al generar una pirámide de características multiescala a partir de una imagen de entrada de resolución única, las FPN permiten a los modelos detect estructuras grandes como detalles minúsculos con gran precisión. Esta arquitectura suele situarse entre la columna vertebral (que extrae características) y el cabezal de detección (que predice clases y recuadros), enriqueciendo eficazmente la información semántica que se transmite a las capas finales.

Comprender la arquitectura FPN

El objetivo principal de una FPN es aprovechar la jerarquía piramidal multiescala inherente a las redes neuronales convolucionales profundas (CNN) , al tiempo que se reduce el coste computacional asociado al procesamiento por separado de múltiples escalas de imagen. La arquitectura consta de tres vías principales que procesan los datos visuales:

  1. Ruta ascendente: Se trata del cálculo de avance de la red troncal, como redes residuales (ResNet). A medida que la imagen se mueve a través de las capas, la resolución espacial disminuye (la imagen se hace más pequeña) mientras que el valor semántico (el contexto de lo que hay en la imagen) aumenta.
  2. Vía descendente: Esta etapa alucina características de mayor resolución mediante el muestreo espacial más grueso, pero semánticamente más fuerte, mapas de características de niveles piramidales superiores . Esto recupera el detalle espacial perdido durante el proceso ascendente.
  3. Conexiones laterales: Estas conexiones fusionan los mapas de características sobremuestreados de la ruta descendente con los mapas de características correspondientes de la ruta ascendente. Esta fusión combina el contexto semántico de alto nivel con la textura de bajo nivel y la información de los bordes, lo que aumenta significativamente precisión. El artículo de investigación sobre FPN demuestra cómo esta técnica logra resultados de vanguardia en los puntos de referencia estándar.

Importancia en la IA moderna

Antes de las FPN, los detectores de objetos generalmente tenían que elegir entre utilizar solo la capa superior (buena para objetos grandes, mala para objetos pequeños) o procesar una pirámide de imágenes (lento y computacionalmente costoso). Las FPN proporcionan una solución que ofrece «lo mejor de ambos mundos». Esta capacidad es vital para la la inferencia en tiempo real, ya que permite que modelos avanzados como YOLO26 y YOLO11 mantengan altas velocidades de fotogramas mientras identifican con precisión objetos que ocupan solo unos pocos píxeles de la pantalla.

Aplicaciones en el mundo real

La capacidad de manejar datos a múltiples escalas hace que los FPN sean indispensables en diversas industrias que dependen de inteligencia artificial (IA).

  • Vehículos autónomos: Los sistemas de conducción autónoma deben track simultáneamente vehículos track cercanos y semáforos o peatones distantes. Las FPN permiten que la pila de percepción procese estos elementos dentro de la misma pasada de inferencia, lo que garantiza que las decisiones de seguridad se tomen al instante. Conjuntos de datos líderes como el Waymo Open Dataset , se utilizan a menudo para entrenar estas capacidades multiescala .
  • Análisis de imágenes médicas: En el diagnóstico por imagen, la identificación de anomalías requiere precisión en todas las escalas. Un tumor puede ser una masa grande o un pequeño nódulo en fase inicial. Los FPN mejoran la los modelos de segmentación de imágenes utilizados en radiología, ayudando a los médicos detect de distintos tamaños en radiografías y resonancias magnéticas, como se comenta con frecuencia en revistas de IA aplicada a la radiología.

FPN frente a BiFPN y PANet

Si bien FPN revolucionó la extracción de características, las arquitecturas más recientes han perfeccionado el concepto.

  • BiFPN (Red piramidal de características bidireccionales): Utilizada en EfficientDet, introduce pesos aprendibles para aprender la importancia de las diferentes características de entrada y añade rutas ascendentes a las descendentes existentes.
  • PANet (Path Aggregation Network): A menudo utilizada en YOLO , PANet añade una ruta ascendente adicional a la estructura FPN para acortar la ruta de información de las características de bajo nivel, mejorando aún más la precisión de la localización .
  • YOLO deUltralytics : Las iteraciones modernas como YOLO26 utilizan variantes avanzadas de estas redes de agregación para maximizar el equilibrio entre velocidad y precisión media (mAP).

Ejemplo de aplicación

Las bibliotecas de aprendizaje profundo y el Ultralytics gestionan internamente las complejidades de las FPN. El siguiente ejemplo muestra cómo cargar un modelo que utiliza una estructura piramidal de características para detect .

from ultralytics import YOLO

# Load the YOLO26 model, which utilizes an advanced feature pyramid architecture
# The 'n' suffix stands for nano, a lightweight version of the model
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects ranging from small to large
# The model internally uses its FPN neck to aggregate features at multiple scales
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes and class labels
results[0].show()

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora