Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Interpolação de fotogramas

Descubra como a interpolação de fotogramas utiliza a IA para criar vídeos fluidos com uma elevada taxa de fotogramas por segundo. Aprenda a melhorar o rastreamento de objetos com Ultralytics e a Ultralytics .

A interpolação de fotogramas é uma técnica de visão computacional e processamento de vídeo que sintetiza novos fotogramas intermédios entre os já existentes para aumentar a taxa de fotogramas de um vídeo e criar um movimento mais suave. Tradicionalmente baseada na mistura básica de imagens, a interpolação de fotogramas moderna utiliza modelos avançados de aprendizagem profunda (DL) para analisar o movimento e o conteúdo de fotogramas adjacentes, prevendo movimentos complexos de píxeis para gerar imagens contínuas de alta qualidade. Esta abordagem impulsionada pela IA é amplamente adotada para converter imagens padrão em meios com alta taxa de atualização, sintetizar efeitos de câmara lenta e estabilizar sequências de ritmo acelerado em vários domínios multimédia e científicos.

Como funciona a interpolação de fotogramas com tecnologia de IA

As estruturas modernas de interpolação afastam-se da simples média de fotogramas. Em vez disso, recorrem a complexas redes neurais (NNs) e a sofisticadas estratégias de estimativa de movimento para preencher as lacunas entre entradas sequenciais:

  • Interpolação baseada no fluxo ótico: Este método calcula o movimento aparente dos píxeis entre fotogramas. Os modelos utilizam este fluxo estimado para distorcer as imagens de entrada e misturá-las. Embora seja rápido, pode ter dificuldades com oclusões intensas ou movimentos rápidos.
  • Arquiteturas convolucionais e Transformer: As Redes Neurais ConvolucionaisProfundas (CNNs) e os modelos Transformer mais recentes aprendem relações espaciais e temporais complexas. Conseguem lidar com oclusões e movimentos rápidos ao prever características contextuais num campo recetivo mais amplo.
  • Abordagens generativas: Os avanços recentes utilizam modelos de difusão para gerar fotogramas intermédios. Estes modelos permitem uma síntese percetivamente realista, mesmo quando os fotogramas de entrada apresentam lacunas de movimento substanciais, adaptando técnicas como a Interpolação de Fotogramas de Vídeo Baseada em Eventos (EVFI) para reconstruir movimentos de alta velocidade utilizando dados de sensores esparsos.

Distinguir conceitos relacionados

Para implementar eficazmente os fluxos de trabalho de melhoria de vídeo, é fundamental distinguir a interpolação de fotogramas das técnicas relacionadas de inteligência artificial (IA):

  • Interpolação de fotogramas vs. fluxo ótico: O fluxo ótico é uma métrica de baixo nível que mede a direção e a velocidade do movimento dos píxeis. A interpolação de fotogramas é uma tarefa de nível superior que recorre frequentemente ao fluxo ótico como ferramenta subjacente para distorcer píxeis e gerar fotogramas de imagem totalmente novos.
  • Interpolação de fotogramas vs. Super-resolução: A interpolação aumenta a resolução temporal ao adicionar mais fotogramas por segundo (por exemplo, aumentando a frequência de fotogramas de 30 FPS para 60 FPS). Por outro lado, a super-resolução aumenta a resolução espacial ao ampliar as dimensões em pixels de fotogramas individuais (por exemplo, de 1080p para 4K).

Principais aplicações na vida real

A interpolação de fotogramas resolve desafios críticos em vários setores, colmatando lacunas nos dados visuais:

  1. Mídia e transmissão desportiva: Os criadores utilizam ferramentas como o FILM (Frame Interpolation for Large Motion) Google para gerar sequências em câmara lenta extremamente fluidas a partir de câmaras normais. Isto melhora a análise desportiva e os efeitos cinematográficos sem a necessidade de hardware de alta velocidade dispendioso.
  2. Imagiologia Biológica e Médica: Na microscopia com lapso de tempo, a interpolação generativa de fotogramas melhora o rastreio de objetos biológicos, tais como células em divisão ou bactérias em movimento. Ao sintetizar estados intermédios, os investigadores podem reduzir a frequência da captura de imagens, o que limita a fototoxicidade e preserva amostras delicadas .

Melhorar os fluxos de trabalho de IA com vídeo interpolado

No aprendizado de máquina, a utilização de vídeo com alta taxa de fotogramas melhora drasticamente a precisão do rastreamento de objetos em etapas posteriores, proporcionando transições temporais mais suaves e reduzindo os saltos na caixa delimitadora. Depois de suavizar um vídeo por meio de interpolação, modelos como Ultralytics conseguem track facilmente track ao longo dos fotogramas sintetizados.

O seguinte Python Este trecho de código demonstra como track num vídeo interpolado com alta taxa de fotogramas por segundo utilizando o ultralytics pacote:

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Run persistent object tracking on the temporally up-sampled video
# The tracker uses the smooth motion to preserve object IDs more accurately
results = model.track(source="interpolated_high_fps_video.mp4", show=True, tracker="botsort.yaml")

Para o processamento de vídeo em grande escala, as equipas podem utilizar a Ultralytics para automatizar a anotação de dados em conjuntos de dados interpolados, permitindo um treino na nuvem sem interrupções e uma implementação robusta de modelos para pipelines complexos de compreensão de vídeo.

Vamos construir juntos o futuro da IA!

Comece sua jornada com o futuro do aprendizado de máquina