Meta Movie Gen : Réimaginer la création de contenu
Découvre comment Meta Movie Gen redéfinit la création vidéo et sonore. Apprends comment ce modèle offre un montage vidéo précis et prend en charge la création de contenu personnalisé.

Que tu sois un cinéaste en herbe ou un créateur de contenu aimant réaliser des vidéos pour ton audience, disposer d'outils d'IA qui stimulent ta créativité est toujours utile. Récemment, Meta a lancé son tout dernier modèle de vidéo générative, connu sous le nom de Meta Movie Gen.
Le marché mondial de l'IA générative dans les médias et le divertissement devrait atteindre 11,57 milliards de dollars d'ici 2033, avec des entreprises comme Runway, OpenAI et Meta à la pointe de l'innovation. Meta Movie Gen, en particulier, est idéal pour des applications telles que la réalisation de films, la création de contenu vidéo et la narration numérique, facilitant plus que jamais la concrétisation de tes visions créatives grâce à des vidéos générées par IA de haute qualité. Dans cet article, nous allons explorer Meta Movie Gen et son fonctionnement. Nous examinerons également de plus près certaines de ses applications. Commençons !

Fig 1. Une image d'un clip vidéo généré à l'aide de Meta Movie Gen.
Link to this sectionQu'est-ce que Meta Movie Gen ?#
Avant de discuter de ce qu'est Meta Movie Gen, jetons un œil à ses origines.
Les efforts de recherche de Meta liés à l'IA générative ont débuté avec leur série de modèles Make-A-Scene. Cette recherche se concentre sur une méthode d'IA générative multimodale qui aide les artistes et les visionnaires à donner vie à leur imagination. Les artistes peuvent saisir des images, de l'audio, des vidéos ou des animations 3D pour obtenir le résultat d'image souhaité. Le saut suivant en matière d'innovation est venu avec les modèles de diffusion comme les modèles de fondation d'image Llama (Emu), qui ont permis de générer des images et des vidéos de bien meilleure qualité et ont rendu possible l'édition d'images.

Fig 2. Un exemple de l'utilisation d'un croquis et d'une saisie de texte Make-A-Scene pour obtenir une image générée.
Movie Gen est la dernière contribution de Meta à la recherche en IA générative. Il combine toutes les modalités mentionnées précédemment et permet un contrôle plus fin afin que chacun puisse utiliser les modèles de manière plus créative. Meta Movie Gen est une collection de modèles fondamentaux pour générer différents types de médias, notamment du texte vers la vidéo, du texte vers l'audio et du texte vers l'image. Il se compose de quatre modèles, entraînés sur une combinaison de jeux de données sous licence et accessibles au public.
Voici un rapide aperçu de ces modèles :
- Modèle Movie Gen Video : Un modèle de 30 milliards de paramètres qui génère des vidéos de haute qualité à partir de invites textuelles.
- Modèle Movie Gen Audio : Un modèle de 13 milliards de paramètres capable de créer des bandes sonores synchronisées avec le contenu vidéo.
- Modèle Personalized Movie Gen Video : Il génère des vidéos de personnes spécifiques à partir d'une invite textuelle et d'une seule image, en conservant leur ressemblance.
- Modèle Movie Gen Edit : Ce modèle permet des modifications vidéo détaillées basées sur du texte pour des vidéos réelles et fictives.
Link to this sectionEntraînement du modèle vidéo Meta Movie Gen#
Plusieurs processus clés ont été impliqués dans la création et l'entraînement du modèle Movie Gen Video. La première étape a consisté à collecter et à préparer des données visuelles, notamment des images et des clips vidéo, principalement des activités humaines filtrées pour leur qualité, leur mouvement et leur pertinence. Les données ont ensuite été associées à des légendes textuelles expliquant ce qui se passait dans chaque scène. Les légendes, générées à l'aide du modèle vidéo Meta’s LLaMa3, ont fourni des détails riches sur le contenu de chaque scène, améliorant ainsi les capacités de narration visuelle du modèle.

Fig 3. Un aperçu du pipeline de conservation des données de pré-entraînement du modèle Movie Gen Video.
Le processus d'entraînement a commencé par l'apprentissage du modèle à transformer du texte en images basse résolution. Il a ensuite progressé vers la création de clips vidéo complets grâce à une combinaison d'entraînement texte vers image et texte vers vidéo, en utilisant des visuels de plus en plus haute qualité.
Un outil appelé Temporal Autoencoder (TAE) a compressé les vidéos pour gérer efficacement de gros volumes de données. Le fine-tuning a encore affiné la qualité vidéo, et une méthode appelée moyennage de modèle (qui combine plusieurs sorties de modèles pour des résultats plus fluides et cohérents) a assuré une plus grande cohérence des résultats. Enfin, la vidéo, initialement en 768p, a été mise à l'échelle vers une résolution nette de 1080p en utilisant une technique d'upsampler spatial, qui augmente la résolution de l'image en ajoutant des données de pixels pour des visuels plus clairs. Le résultat est une sortie vidéo détaillée et de haute qualité.
Link to this sectionExplorer les capacités de Meta Movie Gen#
Les modèles Meta Movie Gen prennent principalement en charge quatre capacités différentes. Examinons chacune d'entre elles plus en détail.
Link to this sectionGénération vidéo et audio#
Meta Movie Gen peut générer des vidéos de haute qualité. Ces clips vidéo peuvent durer jusqu'à 16 secondes et fonctionner à 16 fps (images par seconde), créant des visuels réalistes qui capturent le mouvement, les interactions et les angles de caméra à partir d'invites textuelles. Associé au modèle audio de 13 milliards de paramètres, il peut produire un son synchronisé, incluant des sons ambiants, des effets Foley et de la musique, pour correspondre aux visuels.
Cette configuration assure une expérience fluide et réaliste, où les visuels et l'audio restent alignés et réalistes à travers diverses scènes et invites. Par exemple, ces modèles ont été utilisés pour créer des clips vidéo de l'hippopotame pygmée viral de Thaïlande, nommé Moo Deng.

Fig 4. Une image d'un clip vidéo de Moo Deng réalisé à l'aide de Meta Movie Gen.
Link to this sectionGénération vidéo personnalisée#
Une autre capacité intéressante du modèle Meta Movie Gen est la génération vidéo personnalisée. Les utilisateurs peuvent fournir l'image d'une personne et une invite textuelle décrivant comment le clip vidéo doit être généré, ce qui donne une vidéo incluant la personne de référence et intégrant les riches détails visuels spécifiés dans l'invite. Le modèle utilise les deux entrées (image et texte) pour conserver l'apparence unique et les mouvements corporels naturels de la personne, tout en suivant avec précision la scène décrite dans l'invite.

Fig 5. Un exemple de la capacité de génération vidéo personnalisée du modèle.
Link to this sectionÉdition vidéo précise#
En utilisant le modèle Movie Gen Edit, les utilisateurs peuvent fournir à la fois un clip vidéo et une invite textuelle en entrée pour modifier la vidéo de manière créative. Le modèle combine la génération vidéo avec l'édition d'image avancée pour effectuer des modifications très spécifiques, telles que l'ajout, la suppression ou le remplacement d'éléments. Il peut également effectuer des changements globaux comme la modification de l'arrière-plan du clip vidéo ou du style global. Mais ce qui rend le modèle vraiment unique est sa précision : il peut cibler uniquement les pixels spécifiques qui nécessitent une édition et laisser le reste intact. Cela préserve le contenu original autant que possible.

Fig 6. Divers exemples des capacités d'édition vidéo du modèle Movie Gen Edit.
Link to this sectionOutils de benchmarking de Meta Movie Gen#
Parallèlement aux modèles d'IA générative, Meta a également introduit Movie Gen Bench, une suite d'outils de benchmarking pour tester les performances des modèles d'IA générative. Il est livré avec deux outils principaux : Movie Gen Video Bench et Movie Gen Audio Bench. Les deux sont conçus pour tester différents aspects de la génération vidéo et audio.
Voici un aperçu des deux outils :
- Movie Gen Video Bench : Il se compose de 1003 invites couvrant une grande variété de catégories de test telles que les activités humaines, les animaux, les paysages naturels, la physique, ainsi que des sujets et activités inhabituels. Ce qui rend ce benchmark d'évaluation particulièrement précieux est sa couverture des niveaux de mouvement, ce qui garantit que le modèle de génération vidéo est testé pour des séquences rapides et plus lentes.
- Movie Gen Audio Bench : Il est conçu pour tester les capacités de génération audio sur 527 invites. Ces invites sont associées à des vidéos générées pour évaluer la capacité du modèle à synchroniser les effets sonores et la musique avec le contenu visuel.

Fig 7. Le diagramme montre une répartition des invites d'évaluation, avec une liste de concepts sur la gauche et un nuage de mots de noms et verbes couramment utilisés sur la droite.
Link to this sectionUne application pratique de Meta Movie Gen#
Maintenant que nous avons couvert ce que sont les modèles Meta Movie Gen et comment ils fonctionnent, explorons l'une de leurs applications pratiques.
Link to this sectionInnovations de l'IA Movie Gen dans la réalisation de films#
L'une des utilisations les plus excitantes de Movie Gen de Meta est la façon dont il peut transformer la réalisation de films grâce à la création vidéo et audio assistée par IA. Avec Movie Gen, les créateurs peuvent générer des visuels et des sons de haute qualité à partir de simples invites textuelles, ouvrant de nouvelles façons de raconter des histoires.
En fait, Meta a fait équipe avec Blumhouse et un groupe de cinéastes, recueillant leurs commentaires sur la meilleure façon dont Movie Gen peut soutenir le processus créatif. Des cinéastes comme Aneesh Chaganty, les sœurs Spurlock et Casey Affleck ont testé la capacité de l'outil à capturer l'ambiance, le ton et la direction visuelle. Ils ont découvert que les modèles aidaient à stimuler de nouvelles idées.
Ce programme pilote a montré que, bien que Movie Gen ne remplace pas la réalisation de films traditionnelle, il offre aux réalisateurs un nouveau moyen d'expérimenter avec des éléments visuels et audio de manière rapide et créative. Les cinéastes ont également apprécié la façon dont les fonctionnalités d'édition de l'outil leur permettaient de jouer avec les sons d'arrière-plan, les effets et les styles visuels plus librement.

Fig 8. Une image d'un court métrage créé à l'aide de Meta Movie Gen.
Link to this sectionPoints clés#
Meta Movie Gen est un pas en avant dans l'utilisation de l'IA générative pour créer des vidéos et des sons de haute qualité à partir de simples descriptions textuelles. L'outil aide les utilisateurs à créer facilement des vidéos réalistes et personnalisées. Avec des capacités telles que l'édition vidéo précise et la génération de médias personnalisés, Meta Movie Gen offre un ensemble d'outils flexibles qui ouvre de nouvelles possibilités pour la narration, la réalisation de films et au-delà. En facilitant la création de visuels détaillés et utiles, Meta Movie Gen transforme la façon dont les vidéos sont réalisées et utilisées dans différents domaines et établit une nouvelle norme pour la création de contenu pilotée par l'IA.
Pour en savoir plus, visitez notre dépôt GitHub et échangez avec notre communauté. Explorez les applications de l'IA dans les voitures autonomes et l'agriculture sur nos pages de solutions. 🚀






