Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Impostazioni dei cookie
Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Scopri come Meta Movie Gen sta ridefinendo la creazione di video e suoni. Scopri come questo modello offre un editing video preciso e supporta la creazione di media personalizzati.
Che tu sia un aspirante regista o un creatore di contenuti a cui piace realizzare video per il proprio pubblico, avere strumenti di AI che espandano la tua creatività è sempre utile. Recentemente, Meta ha lanciato il suo ultimo modello di video generativo, noto come Meta Movie Gen.
Si prevede che il mercato globale dell'IA generativa nei media e nell'intrattenimento raggiungerà gli 11,57 miliardi di dollari entro il 2033, con aziende come Runway, OpenAI e Meta in prima linea nelle innovazioni rivoluzionarie. Meta Movie Gen, in particolare, è ideale per applicazioni come la realizzazione di film, la creazione di contenuti video e la narrazione digitale, rendendo più facile che mai dare vita a visioni creative attraverso video di alta qualità generati dall'IA. In questo articolo, esploreremo Meta Movie Gen e il suo funzionamento. Esamineremo anche più da vicino alcune delle sue applicazioni. Iniziamo!
Fig. 1. Un fotogramma di una clip video generata utilizzando Meta Movie Gen.
Cos'è Meta Movie Gen?
Prima di discutere di cosa sia Meta Movie Gen, diamo un'occhiata a come è nato.
Gli sforzi di ricerca di Meta relativi all'AI generativa sono iniziati con la loro serie di modelli Make-A-Scene. Questa ricerca si concentra su un metodo di AI generativa multimodale che aiuta artisti e visionari a dare vita alla loro immaginazione. Gli artisti possono inserire immagini, audio, video o animazioni 3D per ottenere l'output di immagine desiderato. Il successivo salto nell'innovazione è arrivato con i modelli di diffusione come i modelli Llama Image Foundation (Emu), che hanno reso possibile la generazione di immagini e video di qualità molto superiore e hanno consentito l'editing delle immagini.
Fig. 2. Un esempio di utilizzo dello sketch e dell'input di testo di Make-A-Scene per ottenere un'immagine generata.
Movie Gen è l'ultimo contributo di Meta alla ricerca sull'AI generativa. Combina tutte le modalità precedentemente menzionate e consente un controllo più preciso, in modo che le persone possano utilizzare i modelli in modi più creativi. Meta Movie Gen è una raccolta di modelli fondamentali per la generazione di diversi tipi di media, tra cui text-to-video, text-to-audio e text-to-image. È costituito da quattro modelli, che vengono addestrati su una combinazione di dataset con licenza e disponibili pubblicamente.
Ecco una rapida panoramica di questi modelli:
Modello Movie Gen Video: Un modello da 30 miliardi di parametri che genera video di alta qualità da prompt di testo.
Modello Movie Gen Audio: Un modello da 13 miliardi di parametri in grado di creare colonne sonore sincronizzate con il contenuto video.
Modello Personalized Movie Gen Video: Genera video di individui specifici basati su un prompt di testo e una singola immagine, mantenendone la somiglianza.
Modello Movie Gen Edit: Il modello consente modifiche video dettagliate basate su testo per video reali e fittizi.
Addestramento del modello video Meta Movie Gen
Diversi processi chiave sono stati coinvolti nella creazione e nel training del modello Movie Gen Video. La prima fase ha riguardato la raccolta e la preparazione dei dati visivi, tra cui immagini e clip video, principalmente di attività umane, filtrati per qualità, movimento e rilevanza. I dati sono stati quindi abbinati a didascalie di testo che spiegavano cosa stava accadendo all'interno di ogni scena. Le didascalie, generate utilizzando il modello LLaMa3 di Meta, fornivano dettagli ricchi sul contenuto di ogni scena, migliorando le capacità di narrazione visiva del modello.
Fig. 3. Una panoramica della pipeline di data curation pre-training del modello Movie Gen Video.
Il processo di training è iniziato con il modello che ha imparato a trasformare il testo in immagini a bassa risoluzione. Quindi è passato alla creazione di clip video completi attraverso una combinazione di text-to-image e training text-to-video, utilizzando immagini di qualità sempre più elevata.
Uno strumento chiamato Temporal Autoencoder (TAE) ha compresso i video per gestire in modo efficiente grandi volumi di dati. La messa a punto ha ulteriormente migliorato la qualità del video e un metodo chiamato model averaging (che combina più output del modello per risultati più fluidi e coerenti) ha garantito una maggiore coerenza dell'output. Infine, il video, inizialmente a 768p, è stato portato a una nitida risoluzione di 1080p utilizzando una tecnica di upsampler spaziale, che aumenta la risoluzione dell'immagine aggiungendo dati pixel per immagini più chiare. Il risultato sono stati output video dettagliati e di alta qualità.
Esplorazione delle capacità di Meta Movie Gen
I modelli Meta Movie Gen supportano principalmente quattro diverse capacità. Diamo un'occhiata più da vicino a ciascuna di esse.
Generazione di video e audio
Meta Movie Gen è in grado di generare video di alta qualità. Queste clip video possono durare fino a 16 secondi e funzionare a 16 fps (fotogrammi al secondo), creando immagini realistiche che catturano il movimento, le interazioni e le angolazioni della telecamera da prompt di testo. Insieme al modello audio da 13 miliardi di parametri, può produrre audio sincronizzato, inclusi suoni ambientali, effetti Foley e musica, per corrispondere alle immagini.
Questa configurazione garantisce un'esperienza fluida e realistica, in cui sia le immagini che l'audio rimangono allineati e realistici in diverse scene e prompt. Ad esempio, questi modelli sono stati utilizzati per creare clip video del pigmy hippopotamus virale della Thailandia, chiamato Moo Deng.
Fig. 4. Un fotogramma di una clip video di Moo Deng realizzata con Movie Gen di Meta.
Generazione di video personalizzati
Un'altra interessante capacità del modello Meta Movie Gen è la generazione di video personalizzati. Gli utenti possono fornire l'immagine di una persona e un prompt di testo che descrive come deve essere generata la clip video, ottenendo un video che include la persona di riferimento e incorpora i ricchi dettagli visivi specificati nel prompt di testo. Il modello utilizza entrambi gli input (immagine e testo) per mantenere l'aspetto unico della persona e i movimenti del corpo naturali, seguendo accuratamente la scena descritta nel prompt.
Fig 5. Un esempio della capacità del modello di generare video personalizzati.
Editing video preciso
Utilizzando il modello Movie Gen Edit, gli utenti possono fornire sia una clip video che un prompt di testo come input per modificare il video in modi creativi. Il modello combina la generazione di video con l'editing avanzato delle immagini per eseguire modifiche molto specifiche, come aggiungere, rimuovere o sostituire elementi. Può anche eseguire modifiche globali come la modifica dello sfondo della clip video o dello stile generale. Ma ciò che rende il modello veramente unico è la sua precisione: può mirare solo ai pixel specifici che richiedono modifiche e lasciare intatto il resto. Questo preserva il contenuto originale il più possibile.
Fig 6. Vari esempi delle capacità di video editing del modello Movie Gen Edit.
Strumenti di benchmarking di Meta Movie Gen
Insieme ai modelli di IA generativa, Meta ha anche introdotto Movie Gen Bench, una suite di strumenti di benchmarking per testare le prestazioni dei modelli di IA generativa. È dotato di due strumenti principali: Movie Gen Video Bench e Movie Gen Audio Bench. Entrambi sono progettati per testare diversi aspetti della generazione di video e audio.
Ecco un'anteprima di entrambi gli strumenti:
Movie Gen Video Bench: Consiste in 1003 prompt che coprono un'ampia varietà di categorie di test come attività umane, animali, scenari naturali, fisica, così come soggetti e attività insolite. Ciò che rende questo benchmark di valutazione particolarmente prezioso è la sua copertura dei livelli di movimento, che garantisce che il modello di generazione video sia testato sia per sequenze veloci che per sequenze più lente.
Movie Gen Audio Bench: È progettato per testare le capacità di generazione audio attraverso 527 prompt. Questi prompt sono abbinati a video generati per valutare quanto bene il modello riesce a sincronizzare effetti sonori e musica con il contenuto visivo.
Fig 7. Il diagramma mostra un'analisi dettagliata dei prompt di valutazione, con un elenco di concetti a sinistra e un word cloud di nomi e verbi di uso comune a destra.
Un'applicazione pratica di Meta Movie Gen
Ora che abbiamo visto cosa sono i modelli Meta Movie Gen e come funzionano, esploriamo una delle loro applicazioni pratiche.
Innovazioni dell'AI generativa nel cinema
Uno degli usi più entusiasmanti di Movie Gen di Meta è come può trasformare il cinema attraverso la creazione di video e audio basata sull'IA. Con Movie Gen, i creatori possono generare immagini e suoni di alta qualità da semplici prompt di testo, aprendo nuovi modi di raccontare storie.
Infatti, Meta ha collaborato con Blumhouse e un gruppo di registi, raccogliendo il loro feedback su come Movie Gen può supportare al meglio il processo creativo. Registi come Aneesh Chaganty, le Spurlock Sisters e Casey Affleck hanno testato la capacità dello strumento di catturare l'atmosfera, il tono e la direzione visiva. Hanno scoperto che i modelli hanno contribuito a stimolare nuove idee.
Questo programma pilota ha dimostrato che, sebbene Movie Gen non sostituisca il cinema tradizionale, offre ai registi un nuovo modo di sperimentare elementi visivi e audio in modo rapido e creativo. I registi hanno anche apprezzato come le funzionalità di editing dello strumento consentano loro di giocare più liberamente con i suoni di sottofondo, gli effetti e gli stili visivi.
Fig 8. Un fotogramma di un cortometraggio creato con Meta Movie Gen.
Punti chiave
Meta Movie Gen è un passo avanti nell'utilizzo dell'AI generativa per creare video e suoni di alta qualità da semplici descrizioni testuali. Lo strumento aiuta gli utenti a creare facilmente video realistici e personalizzati. Con funzionalità come l'editing video preciso e la generazione di media personalizzati, Meta Movie Gen offre un set di strumenti flessibile che apre nuove possibilità per la narrazione, la realizzazione di film e altro ancora. Rendendo più facile la creazione di immagini dettagliate e utili, Meta Movie Gen sta trasformando il modo in cui i video vengono realizzati e utilizzati in diversi settori e sta definendo un nuovo standard per la creazione di contenuti basata sull'AI.