Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Vision AI

Meta Movie Gen: reimmaginare la creazione di contenuti

Scopri come Meta Movie Gen stia ridefinendo la creazione di video e suoni. Impara come questo modello offra un editing video preciso e supporti la creazione di contenuti multimediali personalizzati.

ABAbirami Vina
4 min read
Creazione video tramite AI con Meta Movie Gen

Che tu sia un aspirante regista o un content creator a cui piace realizzare video per il proprio pubblico, avere strumenti di AI che espandono la tua creatività è sempre utile. Recentemente, Meta ha lanciato il suo ultimo modello generativo video, noto come Meta Movie Gen.

Il mercato dell'IA generativa globale nei media e nell'intrattenimento dovrebbe raggiungere gli 11,57 miliardi di dollari entro il 2033, con aziende come Runway, OpenAI e Meta in prima linea in innovazioni rivoluzionarie. Meta Movie Gen, in particolare, è ottimo per applicazioni come la produzione cinematografica, la creazione di contenuti video e lo storytelling digitale, rendendo più facile che mai dare vita a visioni creative attraverso video generati dall'AI di alta qualità. In questo articolo, esploreremo Meta Movie Gen e come funziona. Daremo anche un'occhiata più da vicino ad alcune delle sue applicazioni. Cominciamo!

Un fotogramma di una clip video generato utilizzando Meta Movie Gen

Fig 1. Un fotogramma di una clip video generata utilizzando Meta Movie Gen.

Link to this sectionCos'è Meta Movie Gen?#

Prima di discutere cosa sia Meta Movie Gen, diamo un'occhiata a come è nato.

Gli sforzi di ricerca di Meta relativi all'AI generativa sono iniziati con la loro serie di modelli Make-A-Scene. Questa ricerca si concentra su un metodo di AI generativa multimodale che aiuta artisti e visionari a dare vita alla propria immaginazione. Gli artisti possono inserire immagini, audio, video o animazioni 3D per ottenere l'output di immagine che desiderano. Il successivo salto nell'innovazione è arrivato con i modelli di diffusione come i modelli Llama Image Foundation (Emu), che hanno reso possibile generare immagini e video di qualità molto superiore e hanno abilitato l'editing delle immagini.

Utilizzo dello schizzo Make-A-Scene e dell'input di testo per generare un'immagine

Fig 2. Un esempio dell'utilizzo dello schizzo e dell'input di testo di Make-A-Scene per ottenere un'immagine generata.

Movie Gen è l'ultimo contributo di Meta alla ricerca sull'IA generativa. Combina tutte le modalità precedentemente menzionate e consente un ulteriore controllo granulare in modo che le persone possano utilizzare i modelli in modi più creativi. Meta Movie Gen è una raccolta di modelli fondamentali per la generazione di diversi tipi di media, tra cui text-to-video, text-to-audio e text-to-image. Consiste in quattro modelli, addestrati su una combinazione di dataset con licenza e disponibili pubblicamente.

Ecco una rapida panoramica di questi modelli:

  • Modello Movie Gen Video: Un modello da 30 miliardi di parametri che genera video di alta qualità a partire da prompt testuali.
  • Modello Movie Gen Audio: Un modello da 13 miliardi di parametri in grado di creare colonne sonore sincronizzate con il contenuto video.
  • Modello Personalized Movie Gen Video: Genera video di persone specifiche basandosi su un prompt testuale e una singola immagine, conservandone le fattezze.
  • Modello Movie Gen Edit: Il modello consente modifiche video dettagliate basate sul testo per video reali e di fantasia.

Link to this sectionAddestrare il modello video Meta Movie Gen#

Diversi processi chiave sono stati coinvolti nella creazione e nell'addestramento del modello Movie Gen Video. Il primo passo ha riguardato la raccolta e la preparazione dei dati visivi, inclusi immagini e clip video, principalmente di attività umane filtrate per qualità, movimento e rilevanza. I dati sono stati poi abbinati a didascalie testuali che spiegavano cosa stesse accadendo all'interno di ogni scena. Le didascalie, generate utilizzando il modello Video di Meta LLaMa3, hanno fornito ricchi dettagli sul contenuto di ogni scena, migliorando le capacità di narrazione visiva del modello.

Panoramica della pipeline dei dati di pre-addestramento del modello Movie Gen Video

Fig 3. Una panoramica della pipeline di cura dei dati di pre-addestramento del modello Movie Gen Video.

Il processo di addestramento è iniziato con il modello che ha imparato a trasformare il testo in immagini a bassa risoluzione. È poi progredito fino alla creazione di clip video complete attraverso una combinazione di text-to-image e addestramento text-to-video, utilizzando elementi visivi di qualità sempre più elevata.

Uno strumento chiamato Temporal Autoencoder (TAE) ha compresso i video per gestire grandi volumi di dati in modo efficiente. Il fine-tuning ha ulteriormente affinato la qualità video e un metodo chiamato media del modello (che combina gli output di più modelli per risultati più fluidi e coerenti) ha garantito una maggiore coerenza dell'output. Infine, il video, inizialmente a 768p, è stato portato a una nitida risoluzione 1080p utilizzando una tecnica di upsampler spaziale, che aumenta la risoluzione dell'immagine aggiungendo dati di pixel per immagini più chiare. Il risultato sono stati output video dettagliati e di alta qualità.

Link to this sectionEsplorare le capacità di Meta Movie Gen#

I modelli Meta Movie Gen supportano principalmente quattro diverse abilità. Diamo un'occhiata più da vicino a ciascuna di esse.

Link to this sectionGenerazione video e audio#

Meta Movie Gen può generare video di alta qualità. Queste clip video possono durare fino a 16 secondi ed essere riprodotte a 16 fps (fotogrammi al secondo), creando immagini realistiche che catturano movimento, interazioni e angolazioni della telecamera a partire da prompt testuali. In coppia con il modello audio da 13 miliardi di parametri, può produrre audio sincronizzato, inclusi suoni ambientali, effetti Foley e musica, per abbinarsi alle immagini.

Questa configurazione garantisce un'esperienza realistica e fluida, in cui sia le immagini che l'audio rimangono allineati e realistici attraverso varie scene e prompt. Ad esempio, questi modelli sono stati utilizzati per creare clip video dell'ippopotamo pigmeo virale della Thailandia, chiamato Moo Deng.

Un fotogramma di una clip video di Moo Deng realizzato utilizzando Meta Movie Gen

Fig 4. Un fotogramma di una clip video di Moo Deng realizzata utilizzando Movie Gen di Meta.

Link to this sectionGenerazione video personalizzata#

Un'altra interessante capacità del modello Meta Movie Gen è la generazione video personalizzata. Gli utenti possono fornire l'immagine di una persona e un prompt testuale che descrive come dovrebbe essere generata la clip video, ottenendo un video che include la persona di riferimento e incorpora i ricchi dettagli visivi specificati nel prompt. Il modello utilizza entrambi gli input (immagine e testo) per mantenere l'aspetto unico della persona e i suoi naturali movimenti del corpo, seguendo accuratamente la scena descritta nel prompt.

Un esempio della capacità di generazione video personalizzata del modello

Fig 5. Un esempio della capacità di generazione video personalizzata del modello.

Link to this sectionEditing video preciso#

Utilizzando il modello Movie Gen Edit, gli utenti possono fornire sia una clip video che un prompt testuale come input per modificare il video in modi creativi. Il modello combina la generazione video con l'editing avanzato delle immagini per eseguire modifiche molto specifiche, come aggiungere, rimuovere o sostituire elementi. Può anche eseguire modifiche globali come modificare lo sfondo della clip video o lo stile generale. Ma ciò che rende il modello davvero unico è la sua precisione: può mirare solo ai pixel specifici che richiedono modifiche e lasciare il resto intatto. Questo preserva il contenuto originale il più possibile.

Esempi delle capacità di editing video del modello Movie Gen Edit

Fig 6. Vari esempi delle capacità di editing video del modello Movie Gen Edit.

Link to this sectionGli strumenti di benchmarking di Meta Movie Gen#

Insieme ai modelli di IA generativa, Meta ha introdotto anche Movie Gen Bench, una suite di strumenti di benchmarking per testare le prestazioni dei modelli di IA generativa. Viene fornito con due strumenti principali: Movie Gen Video Bench e Movie Gen Audio Bench. Entrambi sono progettati per testare diversi aspetti della generazione video e audio.

Ecco una panoramica di entrambi gli strumenti:

  • Movie Gen Video Bench: Consiste in 1003 prompt che coprono un'ampia varietà di categorie di test come attività umane, animali, scenari naturali, fisica, oltre a soggetti e attività insoliti. Ciò che rende questo benchmark di valutazione particolarmente prezioso è la sua copertura dei livelli di movimento, che garantisce che il modello di generazione video venga testato sia per sequenze frenetiche che per quelle più lente.
  • Movie Gen Audio Bench: È progettato per testare le capacità di generazione audio su 527 prompt. Questi prompt sono abbinati a video generati per valutare quanto bene il modello riesca a sincronizzare effetti sonori e musica con il contenuto visivo.

Analisi dei prompt di valutazione di Movie Gen Bench e nuvola di parole

Fig 7. Il diagramma mostra un'analisi dei prompt di valutazione, con un elenco di concetti a sinistra e una word cloud di sostantivi e verbi comunemente usati a destra.

Link to this sectionUn'applicazione pratica di Meta Movie Gen#

Ora che abbiamo trattato cosa sono i modelli Meta Movie Gen e come funzionano, esploriamo una delle loro applicazioni pratiche.

Link to this sectionInnovazioni dell'IA Movie Gen nella produzione cinematografica#

Uno degli usi più entusiasmanti di Movie Gen di Meta è il modo in cui può trasformare la produzione cinematografica attraverso la creazione di video e audio basata sull'IA. Con Movie Gen, i creatori possono generare immagini e suoni di alta qualità da semplici prompt testuali, aprendo nuove strade per raccontare storie.

Infatti, Meta ha collaborato con Blumhouse e un gruppo di registi, raccogliendo il loro feedback su come Movie Gen possa supportare al meglio il processo creativo. Registi come Aneesh Chaganty, le sorelle Spurlock e Casey Affleck hanno testato la capacità dello strumento di catturare atmosfera, tono e direzione visiva. Hanno scoperto che i modelli hanno contribuito a stimolare nuove idee.

Questo programma pilota ha dimostrato che, sebbene Movie Gen non sostituisca la produzione cinematografica tradizionale, offre ai registi un nuovo modo di sperimentare elementi visivi e audio in modo rapido e creativo. I registi hanno anche apprezzato come le funzionalità di editing dello strumento permettano loro di giocare più liberamente con suoni di sottofondo, effetti e stili visivi.

Un fotogramma di un cortometraggio creato utilizzando Meta Movie Gen

Fig 8. Un fotogramma di un cortometraggio creato utilizzando Meta Movie Gen.

Link to this sectionPunti chiave#

Meta Movie Gen è un passo avanti nell'uso dell'IA generativa per realizzare video e suoni di alta qualità a partire da semplici descrizioni testuali. Lo strumento aiuta gli utenti a creare facilmente video realistici e personalizzati. Con funzionalità come l'editing video preciso e la generazione di media personalizzati, Meta Movie Gen offre un set di strumenti flessibile che apre nuove possibilità per lo storytelling, la produzione cinematografica e oltre. Rendendo più semplice la creazione di elementi visivi dettagliati e utili, Meta Movie Gen sta trasformando il modo in cui i video vengono realizzati e utilizzati in diversi campi e sta stabilendo un nuovo standard per la creazione di contenuti basata sull'IA.

Per saperne di più, visita il nostro repository GitHub e interagisci con la nostra community. Esplora le applicazioni di AI nelle auto a guida autonoma e nell'agricoltura sulle nostre pagine delle soluzioni. 🚀

Explore solutions

Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più
Real-time AI that works with your team

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.
Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. La Vision AI abilita l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio della sicurezza in magazzino in tempo reale.
Scopri di più
Real-time AI that works with your team

AI nel settore Retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI alimenta il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e insight più intelligenti sui clienti.
Scopri di più
Real-time AI that works with your team

IA nel settore sanitario

Crea soluzioni sanitarie con i modelli Ultralytics YOLO. La vision AI nella sanità potenzia l'imaging medico più rapido, diagnosi più intelligenti e il monitoraggio dei pazienti.
Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI guida il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della linea di assemblaggio.
Scopri di più
Real-time AI that works with your operation

AI nel settore automobilistico

Applica la computer vision al settore automobilistico con i modelli Ultralytics YOLO. La vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.
Scopri di più
Real-time AI tailored to your operation

AI in Agricoltura

Porta la vision AI nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per rese più elevate e intelligenti.
Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning