Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Interpolación de fotogramas

Descubre cómo la interpolación de fotogramas utiliza la inteligencia artificial para crear vídeos fluidos con un alto número de fotogramas por segundo. Aprende a mejorar el seguimiento de objetos con Ultralytics y la Ultralytics .

La interpolación de fotogramas es una técnica de visión artificial y procesamiento de vídeo que sintetiza nuevos fotogramas intermedios entre los ya existentes para aumentar la frecuencia de fotogramas de un vídeo y crear un movimiento más fluido. Aunque tradicionalmente se basaba en la fusión básica de imágenes, la interpolación de fotogramas moderna utiliza modelos avanzados de aprendizaje profundo (DL) para analizar el movimiento y el contenido de los fotogramas adyacentes, prediciendo movimientos complejos de píxeles para generar imágenes continuas de alta calidad. Este enfoque basado en la IA se utiliza ampliamente para convertir material de vídeo estándar en contenido multimedia de alta frecuencia de actualización, sintetizar efectos de cámara lenta y estabilizar secuencias de ritmo rápido en diversos ámbitos multimedia y científicos.

Cómo funciona la interpolación de fotogramas basada en IA

Los marcos de interpolación modernos se alejan del simple promedio de fotogramas. En su lugar, se basan en complejas redes neuronales (NN) y sofisticadas estrategias de estimación del movimiento para rellenar los huecos entre las entradas secuenciales:

  • Interpolación basada en el flujo óptico: este método calcula el movimiento aparente de los píxeles entre fotogramas. Los modelos utilizan este flujo estimado para deformar las imágenes de entrada y fusionarlas. Aunque es rápido, puede tener dificultades con oclusiones importantes o movimientos rápidos.
  • Arquitecturas convolucionales y de transformadores: Las redes neuronales convolucionalesprofundas (CNN) y los modelos de transformadores más recientes aprenden complejas relaciones espaciales y temporales. Gestionan las oclusiones y los movimientos rápidos mediante la predicción de características contextuales en un campo receptivo más amplio.
  • Enfoques generativos: Los últimos avances utilizan modelos de difusión para generar fotogramas intermedios. Estos modelos permiten una síntesis perceptualmente realista incluso cuando los fotogramas de entrada presentan importantes lagunas de movimiento, adaptando técnicas como la interpolación de fotogramas de vídeo basada en eventos (EVFI) para reconstruir movimientos a alta velocidad utilizando datos de sensores dispersos.

Distinguir conceptos relacionados

Para implementar de forma eficaz los procesos de mejora de vídeo, es fundamental diferenciar la interpolación de fotogramas de otras técnicas de inteligencia artificial (IA) relacionadas:

  • Interpolación de fotogramas frente al flujo óptico: El flujo óptico es una métrica de bajo nivel que mide la dirección y la velocidad del movimiento de los píxeles. La interpolación de fotogramas es una tarea de mayor nivel que suele utilizar el flujo óptico como herramienta subyacente para deformar píxeles y generar fotogramas de imagen completamente nuevos.
  • Interpolación de fotogramas frente a superresolución: La interpolación aumenta la resolución temporal añadiendo más fotogramas por segundo (por ejemplo, un aumento de la frecuencia de fotogramas de 30 FPS a 60 FPS). Por el contrario, la superresolución aumenta la resolución espacial ampliando las dimensiones en píxeles de los fotogramas individuales (por ejemplo, de 1080p a 4K).

Principales aplicaciones en la vida real

La interpolación de fotogramas resuelve retos críticos en múltiples sectores al subsanar las lagunas en los datos visuales:

  1. Medios de comunicación y retransmisiones deportivas: los creadores utilizan herramientas como FILM (Frame Interpolation for Large Motion) Google para generar secuencias a cámara lenta extremadamente fluidas a partir de cámaras estándar. Esto mejora el análisis deportivo y los efectos cinematográficos sin necesidad de recurrir a costosos equipos de alta velocidad.
  2. Imagen biológica y médica: En la microscopía de lapso de tiempo, la interpolación generativa de fotogramas mejora el seguimiento de objetos biológicos, como células en división o bacterias en movimiento. Al sintetizar estados intermedios, los investigadores pueden reducir la frecuencia de las capturas de imágenes, lo que limita la fototoxicidad y preserva las delicadas muestras.

Mejora de los flujos de trabajo de IA con vídeo interpolado

En el aprendizaje automático, el uso de vídeos con alta frecuencia de fotogramas mejora considerablemente la precisión del seguimiento de objetos en las fases posteriores, ya que proporciona transiciones temporales más fluidas y reduce los saltos en los rectángulos delimitadores. Una vez que el vídeo se suaviza mediante interpolación, modelos como Ultralytics pueden track fácilmente track a lo largo de los fotogramas sintetizados.

Los siguientes Python Este fragmento de código muestra cómo realizar track en un vídeo interpolado con una alta velocidad de fotogramas utilizando el ultralytics paquete:

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Run persistent object tracking on the temporally up-sampled video
# The tracker uses the smooth motion to preserve object IDs more accurately
results = model.track(source="interpolated_high_fps_video.mp4", show=True, tracker="botsort.yaml")

Para el procesamiento de vídeo a gran escala, los equipos pueden utilizar la Ultralytics para automatizar la anotación de datos en conjuntos de datos interpolados, lo que permite un entrenamiento en la nube sin interrupciones y una implementación sólida de modelos para flujos de trabajo complejos de comprensión de vídeo.

¡Construyamos juntos el futuro de la IA!

Comience su viaje con el futuro del aprendizaje automático