Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Meta Movie Gen : Réinventer la création de contenu

Abirami Vina

4 min de lecture

15 novembre 2024

Découvrez comment Meta Movie Gen redéfinit la création de vidéos et de sons. Apprenez comment ce modèle offre un montage vidéo précis et prend en charge la création de médias personnalisés.

Que vous soyez un cinéaste en herbe ou un créateur de contenu qui aime réaliser des vidéos pour son public, il est toujours utile de disposer d'outils d'IA qui élargissent votre créativité. Récemment, Meta a lancé son dernier modèle de vidéo générative, connu sous le nom de Meta Movie Gen. 

Le marché mondial de l'IA générative dans les médias et le divertissement devrait atteindre 11,57 milliards de dollars d'ici 2033, avec des entreprises comme Runway, OpenAI et Meta qui ouvrent la voie à des innovations révolutionnaires. Meta Movie Gen, en particulier, est idéal pour des applications telles que la réalisation de films, la création de contenu vidéo et la narration numérique, ce qui facilite plus que jamais la concrétisation de visions créatives grâce à des vidéos de haute qualité générées par l'IA. Dans cet article, nous allons explorer Meta Movie Gen et son fonctionnement. Nous examinerons également de plus près certaines de ses applications. Commençons !

__wf_reserved_inherit
Fig. 1. Une image d'un clip vidéo généré à l'aide de Meta Movie Gen.

Qu'est-ce que Meta Movie Gen ?

Avant de discuter de ce qu'est Meta Movie Gen, examinons comment il a vu le jour. 

Les efforts de recherche de Meta liés à l'IA générative ont commencé avec leur série de modèles Make-A-Scene. Cette recherche se concentre sur une méthode d'IA générative multimodale qui aide les artistes et les visionnaires à donner vie à leur imagination. Les artistes peuvent saisir des images, de l'audio, des vidéos ou des animations 3D pour obtenir l'image de sortie qu'ils désirent. Le prochain bond en avant en matière d'innovation est venu avec les modèles de diffusion comme les modèles Llama Image Foundation (Emu), qui ont permis de générer des images et des vidéos de bien meilleure qualité et ont permis l'édition d'images.

__wf_reserved_inherit
Fig. 2. Un exemple d'utilisation du croquis et de la saisie de texte de Make-A-Scene pour obtenir une image générée.

Movie Gen est la dernière contribution de Meta à la recherche sur l'IA générative. Il combine toutes les modalités mentionnées précédemment et permet un contrôle plus précis afin que les gens puissent utiliser les modèles de manière plus créative. Meta Movie Gen est un ensemble de modèles fondamentaux pour générer différents types de médias, notamment du texte à la vidéo, du texte à l'audio et du texte à l'image. Il se compose de quatre modèles, qui sont entraînés sur une combinaison de jeux de données sous licence et accessibles au public. 

Voici un aperçu rapide de ces modèles :

  • Modèle vidéo Movie Gen : Un modèle de 30 milliards de paramètres qui génère des vidéos de haute qualité à partir d'invites textuelles. 
  • Modèle audio Movie Gen : Un modèle de 13 milliards de paramètres qui peut créer des bandes sonores synchronisées avec le contenu vidéo. 
  • Modèle vidéo personnalisé Movie Gen : Il génère des vidéos de personnes spécifiques en fonction d'une invite textuelle et d'une seule image, tout en conservant leur apparence. 
  • Modèle d'édition Movie Gen : Le modèle permet des modifications vidéo détaillées, basées sur du texte, pour des vidéos réelles et fictives. 

Entraînement du modèle vidéo Meta Movie Gen

Plusieurs processus clés ont été impliqués dans la création et l'entraînement du modèle vidéo Movie Gen. La première étape a consisté à collecter et à préparer des données visuelles, notamment des images et des clips vidéo, principalement d'activités humaines filtrées en fonction de la qualité, du mouvement et de la pertinence. Les données ont ensuite été associées à des légendes textuelles qui expliquaient ce qui se passait dans chaque scène. Les légendes, générées à l'aide du modèle LLaMa3-Video de Meta, ont fourni des détails riches sur le contenu de chaque scène, améliorant ainsi les capacités de narration visuelle du modèle.

__wf_reserved_inherit
Fig. 3.  Un aperçu du pipeline de curation des données de pré-entraînement du modèle vidéo Movie Gen.

Le processus d'apprentissage a commencé par l'apprentissage du modèle pour transformer le texte en images basse résolution. Il a ensuite progressé vers la création de clips vidéo complets grâce à une combinaison d'apprentissage texte-image et texte-vidéo, en utilisant des visuels de plus en plus haute qualité. 

Un outil appelé Temporal Autoencoder (TAE) a compressé les vidéos pour gérer efficacement de grands volumes de données. Le réglage fin a encore amélioré la qualité de la vidéo, et une méthode appelée moyennage de modèles (qui combine plusieurs sorties de modèles pour des résultats plus fluides et plus cohérents) a assuré une plus grande cohérence de la sortie. Enfin, la vidéo, initialement en 768p, a été mise à l'échelle à une résolution nette de 1080p en utilisant une technique d'échantillonnage spatial, qui augmente la résolution de l'image en ajoutant des données de pixels pour des visuels plus clairs. Le résultat a été des sorties vidéo détaillées et de haute qualité.

Exploration des capacités de Meta Movie Gen

Les modèles Meta Movie Gen prennent principalement en charge quatre capacités différentes. Examinons de plus près chacune d'entre elles.

Génération de vidéo et d'audio

Meta Movie Gen peut générer des vidéos de haute qualité. Ces clips vidéo peuvent durer jusqu'à 16 secondes et fonctionner à 16 fps (images par seconde), créant des visuels réalistes qui capturent le mouvement, les interactions et les angles de caméra à partir d'invites textuelles. Associé au modèle audio de 13 milliards de paramètres, il peut produire un son synchronisé, y compris des sons ambiants, des effets Foley et de la musique, pour correspondre aux visuels. 

Cette configuration garantit une expérience réaliste et transparente, où les visuels et l'audio restent alignés et réalistes à travers diverses scènes et invites. Par exemple, ces modèles ont été utilisés pour créer des clips vidéo de l'hippopotame pygmée viral de Thaïlande, nommé Moo Deng.

__wf_reserved_inherit
Fig 4. Une image d'un clip vidéo de Moo Deng réalisée à l'aide de Movie Gen de Meta.

Génération de vidéos personnalisées

Une autre capacité intéressante du modèle Meta Movie Gen est la génération de vidéos personnalisées. Les utilisateurs peuvent fournir l'image d'une personne et une invite textuelle décrivant comment le clip vidéo doit être généré, ce qui donne une vidéo qui inclut la personne de référence et intègre les riches détails visuels spécifiés dans l'invite textuelle. Le modèle utilise les deux entrées (image et texte) pour conserver l'apparence unique de la personne et ses mouvements corporels naturels, tout en suivant fidèlement la scène décrite dans l'invite.

__wf_reserved_inherit
Fig 5. Un exemple de la capacité de génération de vidéos personnalisées du modèle.

Montage vidéo précis 

En utilisant le modèle Movie Gen Edit, les utilisateurs peuvent fournir à la fois un clip vidéo et une invite textuelle comme entrée pour modifier la vidéo de manière créative. Le modèle combine la génération vidéo avec l'édition d'image avancée pour effectuer des modifications très spécifiques, telles que l'ajout, la suppression ou le remplacement d'éléments. Il peut également effectuer des modifications globales comme la modification de l'arrière-plan du clip vidéo ou du style général. Mais ce qui rend le modèle vraiment unique, c'est sa précision : il peut cibler uniquement les pixels spécifiques qui nécessitent une modification et laisser le reste intact. Cela préserve autant que possible le contenu original. 

__wf_reserved_inherit
Fig 6. Divers exemples des capacités de montage vidéo du modèle Movie Gen Edit.

Les outils d'évaluation de Meta Movie Gen

Parallèlement aux modèles d'IA générative, Meta a également présenté Movie Gen Bench, une suite d'outils d'évaluation pour tester les performances des modèles d'IA générative. Il est livré avec deux outils principaux : Movie Gen Video Bench et Movie Gen Audio Bench. Les deux sont conçus pour tester différents aspects de la génération vidéo et audio.

Voici un aperçu des deux outils :

  • Movie Gen Video Bench : Il se compose de 1 003 invites couvrant une grande variété de catégories de test telles que les activités humaines, les animaux, les paysages naturels, la physique, ainsi que des sujets et des activités inhabituels. Ce qui rend ce banc d'essai d'évaluation particulièrement précieux, c'est sa couverture des niveaux de mouvement, ce qui garantit que le modèle de génération vidéo est testé pour les séquences rapides et lentes.
  • Movie Gen Audio Bench : Il est conçu pour tester les capacités de génération audio à travers 527 invites. Ces invites sont associées à des vidéos générées pour évaluer dans quelle mesure le modèle peut synchroniser les effets sonores et la musique avec le contenu visuel.
__wf_reserved_inherit
Fig 7. Le diagramme montre une ventilation des invites d'évaluation, avec une liste de concepts sur la gauche et un nuage de mots de noms et de verbes couramment utilisés sur la droite.

Une application pratique de Meta Movie Gen

Maintenant que nous avons couvert ce que sont les modèles Meta Movie Gen et comment ils fonctionnent, explorons l'une de leurs applications pratiques. 

Innovations de Movie Gen AI dans la réalisation de films

L'une des utilisations les plus intéressantes de Movie Gen de Meta est la façon dont il peut transformer la réalisation de films grâce à la création vidéo et audio alimentée par l'IA. Avec Movie Gen, les créateurs peuvent générer des visuels et des sons de haute qualité à partir de simples invites textuelles, ouvrant ainsi de nouvelles façons de raconter des histoires. 

En fait, Meta s'est associé à Blumhouse et à un groupe de cinéastes, recueillant leurs commentaires sur la façon dont Movie Gen peut le mieux soutenir le processus créatif. Des cinéastes comme Aneesh Chaganty, les sœurs Spurlock et Casey Affleck ont testé la capacité de l'outil à capturer l'ambiance, le ton et la direction visuelle. Ils ont découvert que les modèles aidaient à susciter de nouvelles idées.

Ce programme pilote a démontré que, bien que Movie Gen ne remplace pas la réalisation de films traditionnelle, il offre aux réalisateurs une nouvelle façon d'expérimenter rapidement et de manière créative avec des éléments visuels et audio. Les cinéastes ont également apprécié la façon dont les fonctionnalités d'édition de l'outil leur permettent de jouer plus librement avec les sons d'arrière-plan, les effets et les styles visuels. 

__wf_reserved_inherit
Fig. 8. Une image d'un court métrage créé à l'aide de Meta Movie Gen.

Principaux points à retenir

Meta Movie Gen représente une avancée dans l'utilisation de l'IA générative pour créer des vidéos et des sons de haute qualité à partir de simples descriptions textuelles. L'outil aide les utilisateurs à créer facilement des vidéos réalistes et personnalisées. Avec des capacités telles que l'édition vidéo précise et la génération de médias personnalisés, Meta Movie Gen offre un ensemble d'outils flexible qui ouvre de nouvelles possibilités pour la narration, la réalisation de films et au-delà. En facilitant la création de visuels détaillés et utiles, Meta Movie Gen transforme la façon dont les vidéos sont réalisées et utilisées dans différents domaines et établit une nouvelle norme pour la création de contenu basée sur l'IA.

Pour en savoir plus, consultez notre dépôt GitHub et échangez avec notre communauté. Explorez les applications de l'IA dans les voitures autonomes et l'agriculture sur nos pages de solutions. 🚀

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers