Descubra cómo las redes de pirámides de características (FPN) permiten la detección de objetos a múltiples escalas, aumentando la precisión de los objetos pequeños y grandes en YOLO11 y en los sistemas CV modernos.
Una red piramidal de características (FPN) es un componente de los modelos de aprendizaje profundo, en particular de las arquitecturas de detección de objetos, diseñado para mejorar la detección de objetos a distintas escalas. En cualquier imagen, los objetos pueden parecer grandes o pequeños en función de su tamaño y la distancia desde la cámara. FPN aborda este desafío mediante la creación eficiente de una representación multiescala de características, lo que permite a un modelo reconocer simultáneamente un coche pequeño y distante y un camión grande y cercano con alta precisión. Actúa como puente, o "cuello", entre el extractor de características principal y el componente de predicción final de una red.
Un FPN funciona combinando rasgos de baja resolución y semánticamente fuertes con rasgos de alta resolución y semánticamente débiles. Este proceso suele llevarse a cabo mediante una estructura con dos vías y conexiones laterales.
En un modelo típico de detección de objetos, la arquitectura se divide en columna vertebral, cuello y cabeza. El FPN es una opción popular para el componente del cuello. Su función principal es agregar las características extraídas por la columna vertebral antes de que se utilicen para la tarea de detección final. Al proporcionar una representación de características rica y multiescala, los FPN permiten que modelos como YOLO11 funcionen con solidez en una amplia gama de tamaños de objetos. Este enfoque es más eficiente desde el punto de vista computacional que procesar una imagen a varias resoluciones por separado, ya que reutiliza las características calculadas en la única pasada hacia delante de la columna vertebral. Muchos de los modelos más avanzados aprovechan este concepto, como se observa en varias comparaciones de modelos YOLO.
Los FPN forman parte integral de muchas aplicaciones modernas de visión por ordenador (CV) en las que la detección de objetos multiescala es fundamental.
Aunque FPN supuso un avance significativo, las arquitecturas más recientes han evolucionado el concepto. Un ejemplo notable es la Bi-directional Feature Pyramid Network (BiFPN), introducida en el documento EfficientDet de Google Research. A diferencia de la simple vía descendente de FPN, BiFPN introduce conexiones bidireccionales (tanto descendentes como ascendentes) y utiliza la fusión ponderada de características, lo que permite a la red aprender la importancia de las diferentes características de entrada. Esto suele mejorar el rendimiento y la eficiencia, como se pone de manifiesto en comparaciones como EfficientDet frente a YOLO11. Mientras que FPN es un concepto fundacional, BiFPN representa un enfoque más avanzado y optimizado de la fusión de características multiescala.