Descubra cómo las redes de pirámides de características (FPN) permiten la detección de objetos a múltiples escalas, aumentando la precisión de los objetos pequeños y grandes en YOLO11 y en los sistemas CV modernos.
Una red piramidal de características (FPN) es una arquitectura especializada utilizada en visión artificial (CV) para mejorar la detección de objetos a diferentes escalas. Es un componente fundamental en muchas arquitecturas de detección de objetos, diseñadas para superar las limitaciones de los detectores tradicionales que tienen dificultades para reconocer objetos pequeños. Al generar una pirámide de características multiescala a partir de una imagen de entrada de resolución única, las FPN permiten a los modelos detect estructuras grandes como detalles minúsculos con gran precisión. Esta arquitectura suele situarse entre la columna vertebral (que extrae características) y el cabezal de detección (que predice clases y recuadros), enriqueciendo eficazmente la información semántica que se transmite a las capas finales.
El objetivo principal de una FPN es aprovechar la jerarquía piramidal multiescala inherente a las redes neuronales convolucionales profundas (CNN) , al tiempo que se reduce el coste computacional asociado al procesamiento por separado de múltiples escalas de imagen. La arquitectura consta de tres vías principales que procesan los datos visuales:
Antes de las FPN, los detectores de objetos generalmente tenían que elegir entre utilizar solo la capa superior (buena para objetos grandes, mala para objetos pequeños) o procesar una pirámide de imágenes (lento y computacionalmente costoso). Las FPN proporcionan una solución que ofrece «lo mejor de ambos mundos». Esta capacidad es vital para la la inferencia en tiempo real, ya que permite que modelos avanzados como YOLO26 y YOLO11 mantengan altas velocidades de fotogramas mientras identifican con precisión objetos que ocupan solo unos pocos píxeles de la pantalla.
La capacidad de manejar datos a múltiples escalas hace que los FPN sean indispensables en diversas industrias que dependen de inteligencia artificial (IA).
Si bien FPN revolucionó la extracción de características, las arquitecturas más recientes han perfeccionado el concepto.
Las bibliotecas de aprendizaje profundo y el Ultralytics gestionan internamente las complejidades de las FPN. El siguiente ejemplo muestra cómo cargar un modelo que utiliza una estructura piramidal de características para detect .
from ultralytics import YOLO
# Load the YOLO26 model, which utilizes an advanced feature pyramid architecture
# The 'n' suffix stands for nano, a lightweight version of the model
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects ranging from small to large
# The model internally uses its FPN neck to aggregate features at multiple scales
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting bounding boxes and class labels
results[0].show()