Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Interpolation d'images

Découvrez comment l'interpolation d'images utilise l'IA pour créer des vidéos fluides à un taux de rafraîchissement élevé. Apprenez à améliorer le suivi des objets grâce à Ultralytics et à la Ultralytics .

L'interpolation d'images est une technique de vision par ordinateur et de traitement vidéo qui synthétise de nouvelles images intermédiaires entre celles existantes afin d'augmenter la fréquence d'images d'une vidéo et de créer un mouvement plus fluide. Alors qu'elle reposait traditionnellement sur un simple mélange d'images, l'interpolation d'images moderne utilise des modèles avancés d'apprentissage profond (DL) pour analyser le mouvement et le contenu des images adjacentes, prédisant ainsi des mouvements de pixels complexes afin de générer des images continues de haute qualité. Cette approche basée sur l'IA est largement adoptée pour convertir des séquences standard en médias à taux de rafraîchissement élevé, synthétiser des effets de ralenti et stabiliser des séquences au rythme rapide dans divers domaines multimédias et scientifiques.

Comment fonctionne l'interpolation d'images basée sur l'IA

Les cadres d'interpolation modernes s'éloignent du simple lissage d'images. Ils s'appuient plutôt sur des réseaux neuronaux (RN) complexes et des stratégies sophistiquées d'estimation du mouvement pour combler les lacunes entre les données d'entrée séquentielles :

  • Interpolation basée sur le flux optique : cette méthode calcule le mouvement apparent des pixels entre les images. Les modèles utilisent ce flux estimé pour déformer les images d'entrée et les fusionner. Bien que rapide, cette méthode peut rencontrer des difficultés face à des occlusions importantes ou à des mouvements rapides.
  • Architectures convolutives et de type Transformer : les réseaux neuronaux convolutifsprofonds (CNN) et les modèles Transformer plus récents apprennent à saisir des relations spatiales et temporelles complexes. Ils gèrent les occlusions et les mouvements rapides en prédisant des caractéristiques contextuelles sur un champ réceptif plus large.
  • Approches génératives : les avancées récentes recourent à des modèles de diffusion pour générer des images intermédiaires. Ces modèles permettent une synthèse réaliste sur le plan perceptif, même lorsque les images d'entrée présentent d'importantes lacunes de mouvement, en adaptant des techniques telles que l'interpolation d'images vidéo basée sur les événements (EVFI) afin de reconstituer des mouvements à grande vitesse à partir de données de capteurs clairsemées.

Distinguer les concepts apparentés

Pour mettre en œuvre efficacement des pipelines d'amélioration vidéo, il est essentiel de distinguer l'interpolation d'images des techniques connexes d'intelligence artificielle (IA):

  • Interpolation d'images vs flux optique: Le flux optique est une métrique de bas niveau qui mesure la direction et la vitesse du mouvement des pixels. L'interpolation d'images est une tâche de plus haut niveau qui utilise souvent le flux optique comme outil sous-jacent pour déformer les pixels et générer des images entièrement nouvelles.
  • Interpolation d'images vs. Super-résolution: L'interpolation augmente la résolution temporelle en ajoutant davantage d'images par seconde (par exemple, un suréchantillonnage temporel de 30 images par seconde à 60 images par seconde). À l'inverse, la super-résolution augmente la résolution spatiale en augmentant la résolution en pixels de chaque image (par exemple, de 1080p à 4K).

Principales applications concrètes

L'interpolation d'images permet de relever des défis majeurs dans de nombreux secteurs en comblant les lacunes des données visuelles :

  1. Médias et retransmissions sportives : les créateurs utilisent des outils tels que FILM (Frame Interpolation for Large Motion) Google pour générer des séquences au ralenti d'une fluidité exceptionnelle à partir de caméras standard. Cela permet d'améliorer l'analyse sportive et les effets cinématographiques sans avoir recours à du matériel coûteux de prise de vue à haute vitesse.
  2. Imagerie biologique et médicale : en microscopie en accéléré, l'interpolation générative des images améliore le suivi d'objets biologiques, tels que les cellules en division ou les bactéries en mouvement. En synthétisant des états intermédiaires, les chercheurs peuvent réduire la fréquence des prises de vue, ce qui limite la phototoxicité et préserve les échantillons fragiles.

Optimisation des flux de travail d'IA grâce à la vidéo interpolée

En apprentissage automatique, l'utilisation de vidéos à fréquence d'images élevée améliore considérablement la précision du suivi d'objets en aval en assurant des transitions temporelles plus fluides et en réduisant les sauts de cadre. Une fois la vidéo lissée par interpolation, des modèles tels que Ultralytics peuvent facilement track à travers les images synthétisées.

Le texte suivant Python Cet extrait montre comment track dans une vidéo interpolée à haut débit d'images par seconde à l'aide de la ultralytics l'emballage :

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Run persistent object tracking on the temporally up-sampled video
# The tracker uses the smooth motion to preserve object IDs more accurately
results = model.track(source="interpolated_high_fps_video.mp4", show=True, tracker="botsort.yaml")

Pour le traitement vidéo à grande échelle, les équipes peuvent utiliser la Ultralytics afin d'automatiser l'annotation des données sur des ensembles de données interpolés, ce qui permet un apprentissage en cloud fluide et un déploiement robuste des modèles pour les pipelines complexes de compréhension vidéo.

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique