Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Text-to-Video

Explore l'IA générative texte-vers-vidéo. Apprends comment les modèles synthétisent du contenu dynamique à partir de texte et utilise Ultralytics YOLO26 pour analyser et suivre les vidéos générées.

Le Text-to-Video est une branche avancée de l'IA générative qui se concentre sur la synthèse de contenu vidéo dynamique directement à partir de descriptions textuelles. En interprétant des invites en langage naturel, ces systèmes génèrent une séquence cohérente d'images qui évoluent dans le temps, comblant efficacement le fossé entre la génération statique text-to-image et les films en mouvement complet. Cette technologie repose sur des architectures complexes de deep learning (DL) pour comprendre non seulement la sémantique visuelle des objets et des scènes — à quoi ressemblent les choses — mais aussi leurs dynamiques temporelles — comment les choses bougent et interagissent physiquement dans un espace tridimensionnel. Alors que la demande pour les médias riches augmente, le Text-to-Video devient un outil essentiel pour les créateurs, automatisant le processus laborieux de l'animation et de la production vidéo.

Link to this sectionMécanismes de génération vidéo#

Le processus de transformation du texte en vidéo implique une synergie entre le traitement du langage naturel (NLP) et la synthèse par vision par ordinateur. Le pipeline commence généralement par un encodeur de texte, souvent basé sur l'architecture Transformer, qui convertit l'invite d'un utilisateur en embeddings de haute dimension. Ces embeddings guident un modèle génératif, tel qu'un modèle de diffusion ou un réseau antagoniste génératif (GAN), pour produire des images visuelles.

Un défi critique dans ce processus est le maintien de la cohérence temporelle. Contrairement à la génération d'une seule image, le modèle doit s'assurer que les objets ne scintillent pas, ne se transforment pas involontairement ou ne disparaissent pas entre les images. Pour y parvenir, les modèles sont entraînés sur des datasets massifs de paires vidéo-texte, apprenant à prédire comment les pixels doivent se déplacer au fil du temps. Des techniques comme l'interpolation d'images sont fréquemment utilisées pour lisser le mouvement et augmenter la fréquence d'images, nécessitant souvent une puissance de calcul substantielle fournie par des GPU haut de gamme.

Link to this sectionApplications concrètes#

La technologie Text-to-Video transforme les industries en permettant une visualisation et une création de contenu rapides. Deux cas d'utilisation importants incluent :

  • Marketing et publicité : Les marques utilisent le Text-to-Video pour générer des vitrines de produits de haute qualité ou du contenu pour les réseaux sociaux à partir de scripts simples. Par exemple, un marketeur pourrait produire une vidéo d'une « voiture de sport roulant à travers une ville cyberpunk pluvieuse » pour tester un concept visuel sans organiser un tournage physique coûteux. Cette capacité permet la création de diverses données synthétiques qui peuvent également être utilisées pour entraîner d'autres modèles d'IA.
  • Prévisualisation de film : Les réalisateurs et les concepteurs de jeux utilisent des outils comme Google's DeepMind Veo pour le storyboarding. Au lieu de dessiner des panneaux statiques, les créateurs peuvent générer des clips vidéo bruts pour visualiser instantanément les angles de caméra, l'éclairage et le rythme. Cela accélère le pipeline créatif, permettant une itération rapide sur des récits complexes avant de s'engager dans la production finale.

Link to this sectionDistinction entre génération et analyse#

Il est crucial de distinguer la génération de vidéo et l'analyse de vidéo. Le Text-to-Video crée de nouveaux pixels à partir de zéro basés sur une invite. En revanche, la compréhension vidéo implique le traitement de séquences existantes pour extraire des informations, telles que la détection d'objets ou la reconnaissance d'actions.

Alors que le Text-to-Video repose sur des modèles génératifs, l'analyse vidéo repose sur des modèles discriminants comme le YOLO26 à la pointe de la technologie. L'extrait de code ci-dessous démontre ce dernier — charger un fichier vidéo (qui pourrait être généré par l'IA) et l'analyser pour suivre les objets, soulignant la différence de flux de travail.

from ultralytics import YOLO

# Load the official YOLO26 model for analysis (not generation)
model = YOLO("yolo26n.pt")

# Process a video file to track objects across frames
# Ideally, this distinguishes real objects from generated artifacts
results = model.track(source="path/to/generated_video.mp4", show=True)

Link to this sectionConcepts et défis connexes#

Pour saisir pleinement la portée du Text-to-Video, il est utile de le comparer avec des termes connexes dans le paysage de l'IA :

  • Text-to-Image : Cela génère un instantané statique. Le Text-to-Video ajoute la dimension temporelle, obligeant le modèle à maintenir la cohérence du sujet au fur et à mesure de son mouvement.
  • Apprentissage multi-modal : Le Text-to-Video est intrinsèquement multi-modal, traduisant des données textuelles en médias visuels. C'est similaire au text-to-speech, qui traduit du texte en formes d'ondes audio.
  • Vision par ordinateur (CV) : Fait généralement référence à la capacité de la machine à « voir » et comprendre des images. Le Text-to-Video est l'inverse : la machine « imagine » et crée du contenu visuel.

Malgré des avancées rapides, des défis subsistent, notamment des coûts de calcul élevés et le risque d'hallucinations où la vidéo défie la physique. Il existe également des préoccupations importantes concernant l'éthique de l'IA et la prolifération des deepfakes. Cependant, à mesure que des modèles comme Meta Movie Gen évoluent, nous pouvons nous attendre à une fidélité accrue et à une meilleure intégration dans les flux de travail professionnels gérés via la plateforme Ultralytics.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique