¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Red piramidal de características (FPN)

Descubra cómo las redes de pirámides de características (FPN) permiten la detección de objetos a múltiples escalas, aumentando la precisión de los objetos pequeños y grandes en YOLO11 y en los sistemas CV modernos.

Una red piramidal de características (FPN) es un componente de los modelos de aprendizaje profundo, en particular de las arquitecturas de detección de objetos, diseñado para mejorar la detección de objetos a distintas escalas. En cualquier imagen, los objetos pueden parecer grandes o pequeños en función de su tamaño y la distancia desde la cámara. FPN aborda este desafío mediante la creación eficiente de una representación multiescala de características, lo que permite a un modelo reconocer simultáneamente un coche pequeño y distante y un camión grande y cercano con alta precisión. Actúa como puente, o "cuello", entre el extractor de características principal y el componente de predicción final de una red.

Cómo funciona una red piramidal de características

Un FPN funciona combinando rasgos de baja resolución y semánticamente fuertes con rasgos de alta resolución y semánticamente débiles. Este proceso suele llevarse a cabo mediante una estructura con dos vías y conexiones laterales.

  1. Ruta ascendente: Es el paso estándar hacia delante de una red neuronal convolucional (CNN), que sirve de columna vertebral del modelo. A medida que una imagen pasa por capas sucesivas, los mapas de características resultantes disminuyen en tamaño espacial pero aumentan en profundidad semántica, lo que significa que captan conceptos más abstractos.
  2. Ruta descendente: La red toma el mapa de características de la capa más profunda (que es pequeña pero rica en información) y comienza a muestrearlo.
  3. Conexiones laterales: A medida que la vía descendente reconstruye mapas de características más amplios, los fusiona con los mapas de características correspondientes de la vía ascendente. Esta fusión enriquece las capas sobremuestreadas con los detalles más finos y localizados de las capas anteriores. El resultado es una "pirámide" de mapas de características, cada uno de ellos rico en detalles semánticos y espaciales, que se envía al cabezal de detección para su predicción. El documento original de investigación sobre la FPN ofrece una explicación técnica detallada de este proceso.

El papel del FPN en la detección de objetos

En un modelo típico de detección de objetos, la arquitectura se divide en columna vertebral, cuello y cabeza. El FPN es una opción popular para el componente del cuello. Su función principal es agregar las características extraídas por la columna vertebral antes de que se utilicen para la tarea de detección final. Al proporcionar una representación de características rica y multiescala, los FPN permiten que modelos como YOLO11 funcionen con solidez en una amplia gama de tamaños de objetos. Este enfoque es más eficiente desde el punto de vista computacional que procesar una imagen a varias resoluciones por separado, ya que reutiliza las características calculadas en la única pasada hacia delante de la columna vertebral. Muchos de los modelos más avanzados aprovechan este concepto, como se observa en varias comparaciones de modelos YOLO.

Aplicaciones en el mundo real

Los FPN forman parte integral de muchas aplicaciones modernas de visión por ordenador (CV) en las que la detección de objetos multiescala es fundamental.

  • Vehículos autónomos: Los coches autónomos deben detectar peatones, vehículos, señales de tráfico y marcas de carril a distintas distancias. Un FPN ayuda al sistema de percepción del vehículo, detallado en recursos de instituciones como la Universidad Carnegie Mellon, a identificar a un peatón lejano y a un coche cercano dentro del mismo encuadre, lo que resulta esencial para una navegación segura.
  • Análisis de imágenes médicas: En radiología, las FPN pueden ayudar a analizar exploraciones médicas para detectar anomalías de distintos tamaños, como lesiones pequeñas y tumores grandes. Esta capacidad multiescala permite realizar diagnósticos automatizados más completos y precisos en campos como la patología y la oncología, según se expone en una investigación publicada por los Institutos Nacionales de Salud (NIH).

FPN frente a BiFPN

Aunque FPN supuso un avance significativo, las arquitecturas más recientes han evolucionado el concepto. Un ejemplo notable es la Bi-directional Feature Pyramid Network (BiFPN), introducida en el documento EfficientDet de Google Research. A diferencia de la simple vía descendente de FPN, BiFPN introduce conexiones bidireccionales (tanto descendentes como ascendentes) y utiliza la fusión ponderada de características, lo que permite a la red aprender la importancia de las diferentes características de entrada. Esto suele mejorar el rendimiento y la eficiencia, como se pone de manifiesto en comparaciones como EfficientDet frente a YOLO11. Mientras que FPN es un concepto fundacional, BiFPN representa un enfoque más avanzado y optimizado de la fusión de características multiescala.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles