Descubra cómo las redes piramidales de características (FPN) mejoran la detección de objetos a múltiples escalas. Descubra cómo Ultralytics utiliza FPN avanzadas para detect objetos detect y grandes.
Una red piramidal de características (FPN) es un componente arquitectónico especializado que se utiliza en la visión artificial moderna sistemas de visión por computadora (CV) para mejorar la detección de objetos a diversas escalas. Resuelve eficazmente un desafío de larga data en el análisis de imágenes: reconocer tanto estructuras grandes y prominentes como detalles diminutos y distantes dentro de la misma imagen. Al generar una representación multiescala de la entrada, conceptualmente similar a una pirámide, las FPN permiten a las redes neuronales extraer una rica información semántica en todos los niveles de resolución. Esta arquitectura se sitúa normalmente entre la columna vertebral, que extrae las características sin procesar, y el cabezal de detección, que predice las clases de objetos y los rectángulos delimitadores.
La innovación fundamental de la FPN radica en cómo procesa la información. Las Las redes neuronales convolucionales (CNN) crean de forma natural una jerarquía de características en la que la imagen de entrada se reduce progresivamente. Si bien esto profundiza la comprensión semántica (saber qué hay en la imagen), a menudo degrada la resolución espacial (saber exactamente dónde está), haciendo que los objetos pequeños desaparezcan.
Las FPN abordan esto mediante un proceso de tres pasos:
Esta combinación da como resultado una pirámide en la que cada nivel tiene una semántica sólida y una buena localización, lo que aumenta significativamente precisión y la recuperación en todos los tamaños de objetos.
Las FPN son una piedra angular de las arquitecturas de detección de objetos. Antes de su introducción, los modelos tenían que elegir entre velocidad (utilizando solo la capa final) o precisión (procesando una pirámide de imágenes, lo cual es muy lento). Las FPN proporcionan una solución que ofrece lo mejor de ambos mundos, permitiendo inferencia en tiempo real sin sacrificar la capacidad de detección de objetos pequeños.
Esta eficiencia es crucial para modelos avanzados como YOLO26, que utiliza sofisticadas redes de agregación inspiradas en los principios de FPN (como PANet) para lograr un rendimiento de vanguardia. La arquitectura garantiza que, tanto si el modelo se implementa en dispositivos periféricos como en potentes servidores a través de la Ultralytics , mantenga una alta precisión en diversos conjuntos de datos.
La capacidad multiescala de las FPN las hace indispensables en industrias donde la seguridad y la precisión son primordiales.
Es útil distinguir el FPN estándar de sus variantes evolucionadas que se encuentran en arquitecturas más recientes.
Bibliotecas avanzadas como ultralytics gestionar internamente la complejidad de la construcción de FPN. Cuando se carga un
modelo como YOLO26, la arquitectura incluye automáticamente estas capas de agregación de características para maximizar el rendimiento.
from ultralytics import YOLO
# Load the YOLO26 model, which uses advanced feature pyramid principles internally
# The 'n' suffix indicates the nano version, optimized for speed
model = YOLO("yolo26n.pt")
# Perform inference on an image containing objects of various sizes
# The model's neck (FPN-based) aggregates features to detect small and large items
results = model("https://ultralytics.com/images/bus.jpg")
# Display results to see bounding boxes around buses (large) and people (small)
results[0].show()