Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024

Generazione di video con Veo di Google DeepMind

Abirami Vina

6 minuti di lettura

15 maggio 2024

Scopri di più su Veo, l'ultimo modello di video generativo di Google DeepMind in grado di creare senza sforzo video di alta qualità a 1080P da prompt di testo, immagini e video.

Durante la presentazione I/O 2024 di Google del 14 maggio, sono stati condivisi gli ultimi aggiornamenti di DeepMind, la loro divisione AI. Uno dei progressi più interessanti condivisi è stato il loro nuovo modello di video generativo, Veo. Veo può creare video di alta qualità a 1080P basati su prompt di testo, immagini e video. Permette anche di modificare i video generati con prompt successivi. Veo porta l'IA generativa a un livello superiore. Diamo un'occhiata più da vicino alle funzionalità offerte da Veo. 

Comprendere le capacità di Veo

Veo è un modello generativo di video che utilizza una profonda comprensione del linguaggio e delle immagini per creare video che corrispondono strettamente alla visione creativa di un utente. Può catturare il tono e i dettagli di prompt più lunghi in modo accurato, rendendolo uno strumento potente per i creatori che desiderano trasformare le loro idee in contenuti video precisi.

L'utente può avere un controllo creativo rivoluzionario sul video generato perché Veo è in grado di comprendere tecniche cinematografiche come "timelapse" e "riprese aeree di un paesaggio". Questo controllo creativo consente agli utenti di creare video in cui persone, animali e oggetti si muovono in modo naturale. I video generati da Veo sono coinvolgenti e visivamente accattivanti perché è difficile individuare che sono generati da un modello di IA.

Veo va oltre la semplice creazione di video da prompt. Se fornisci un video generato in precedenza e una specifica richiesta di modifica, come l'inserimento di kayak in una vista aerea di una costa, Veo può integrare senza problemi questa modifica nel video originale, producendo una versione aggiornata.

Fig 1. Un esempio di video editing tramite Veo.

Ecco alcune funzionalità aggiuntive offerte da Veo:

  • Modifica mascherata: Veo può aiutarti a modificare aree definite di un video.
  • Creazione di video ispirati a immagini: utilizzando un'immagine e un prompt testuale, Veo può generare video che rispecchiano lo stile dell'immagine e seguono le indicazioni del prompt.
  • Clip video estese: Veo può creare ed estendere clip video fino a 60 secondi o più, da un singolo prompt o da una sequenza di prompt che insieme raccontano una storia.

Video mozzafiato generati da Veo

Analizziamo alcuni dei video che Veo ha generato e perché sono così mozzafiato. 

Generare un video di un timelapse da un breve prompt di testo è impegnativo. In genere, il breve prompt di testo non può trasmettere accuratamente i cambiamenti e i movimenti all'interno della scena del timelapse. Quindi, è sorprendente che Veo possa capire cosa aspettarsi da un timelapse senza entrare nei dettagli. 

Fig. 2. Un frame estratto dal video time-lapse generato da Veo.

Allo stesso modo, generare video con una fisica accurata non è facile. Il modello di IA deve comprendere e simulare le leggi della fisica come la gravità, la quantità di moto e le collisioni per far apparire realistici i movimenti e le interazioni. È impressionante che Veo sia in grado di modellare accuratamente queste dinamiche senza una guida dettagliata da prompt di testo.

Fig. 3. Un fotogramma di un video generato tramite Veo cattura accuratamente la fisica del movimento delle meduse.

Finora, a causa di limitazioni computazionali e della complessità di mantenere la coerenza su sequenze più lunghe, abbiamo visto solo video più brevi generati dall'AI. Durante la presentazione I/O 2024 di Google, è stata mostrata la straordinaria capacità di Veo di creare video più lunghi e complessi.

Fig. 4. Fotogrammi dal video Veo più lungo mostrato alla presentazione Google I/O 2024.

Come funziona Veo?

Come molti altri modelli di intelligenza artificiale, Veo si erge sulle spalle dei giganti. Attinge da precedenti progressi come Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, nonché dall'architettura Transformer proprietaria di Google e Gemini. Inoltre, per migliorare la capacità di Veo di interpretare accuratamente i prompt, le didascalie di ogni video nel suo dataset di addestramento sono state rese più dettagliate. 

Basandosi sul flusso di lavoro del modello approssimativo condiviso da Google, ecco come funziona Veo:

  • Prompt di input: fornisci un prompt di testo e, facoltativamente, un prompt di immagine.
  • Codifica: il prompt di testo viene elaborato da un UL2 Encoder e il prompt di immagine viene elaborato da un encoder di immagini.
  • Prompt incorporato: gli output degli encoder di testo e immagine vengono combinati per formare un unico prompt incorporato.
  • Modello di diffusione latente: il prompt incorporato e un video compresso con rumore vengono passati a questo modello che genera un video compresso utilizzandoli. Veo utilizza rappresentazioni video compresse di alta qualità, note come latenti, per migliorare l'efficienza mantenendo la qualità.
  • Decodifica: la fase finale decodifica l'output video a 1080p dal video compresso.
Fig 5. Come funziona Veo.

Un avvincente caso di studio nel campo della cinematografia

Per testare le capacità di Veo, Google ha collaborato con il regista Donald Glover e il suo studio creativo, Gilga. Hanno utilizzato Veo per esplorare varie tecniche creative, tra cui riprese di tracciamento dinamiche, che richiedono movimenti precisi e un'inquadratura coerente. 

Fig 6. Utilizzo di Veo nel processo di realizzazione di film.

Tradizionalmente, i registi cinematografici devono affrontare limitazioni dovute a vincoli di tempo e risorse. Con Veo, Glover e il suo team hanno potuto sperimentare e generare rapidamente riprese complesse, il che, a sua volta, ha fornito maggiore flessibilità e innovazione nel processo di realizzazione del film.

Con Veo, Glover e il suo team hanno potuto sperimentare e generare rapidamente riprese complesse prima delle riprese vere e proprie. Ad esempio, potevano provare varie riprese di tracciamento dinamico per vedere come sarebbero apparse e apportare modifiche in base alle necessità. Questo processo di pre-visualizzazione li ha aiutati a perfezionare le loro idee e a garantire che le riprese funzionassero come previsto, riducendo in definitiva il numero di riprese necessarie durante le riprese vere e proprie. Sono stati in grado di creare un convincente caso di studio per dimostrare il potenziale di Veo nel cambiare l'industria cinematografica. Offre un modo più rapido ed efficiente per dare vita a visioni creative.

Usi pratici di Veo in vari settori 

Le avanzate capacità di generazione video di Veo hanno applicazioni pratiche in molti settori. Nella pubblicità, può produrre rapidamente spot pubblicitari personalizzati e di alta qualità per un pubblico mirato, risparmiando tempo e costi di produzione. Nell'istruzione, Veo può creare video didattici coinvolgenti, rendendo più facili da comprendere concetti complessi. 

Le aziende possono utilizzare Veo per la formazione e le comunicazioni aziendali. I professionisti del settore sanitario possono utilizzare Veo per simulare procedure mediche a scopo di formazione. Per quanto riguarda eventi e conferenze virtuali, Veo può creare simulazioni realistiche di luoghi e palcoscenici, offrendo ai partecipanti un'esperienza coinvolgente e interattiva da qualsiasi luogo. Gli organizzatori beneficiano di una maggiore portata e di preziose informazioni per eventi futuri. Grazie a Veo, si sono aperte innumerevoli opportunità.

Quando un modello di intelligenza artificiale ha il potenziale per toccare diversi settori, è importante tenere a mente la sicurezza e l'etica dell'IA. Per consentire un'adozione più ampia e garantire un uso responsabile, Google ha implementato diverse misure di sicurezza. I video creati da Veo sono contrassegnati con filigrana utilizzando SynthID, uno strumento per filigranare e identificare i contenuti generati dall'IA. SynthId garantisce la trasparenza e aiuta a mitigare i rischi di privacy, copyright e pregiudizi. Oltre a questo, tutti i video generati passano attraverso filtri di sicurezza e processi di controllo della memorizzazione. Queste salvaguardie rendono Veo uno strumento prezioso ed etico che supporta una produzione video responsabile e innovativa.

Dove accedere a Veo

Nelle prossime settimane, Google inizierà a offrire alcune delle rivoluzionarie funzionalità di Veo a creatori selezionati tramite VideoFX, un nuovo strumento disponibile su labs.google. Questa iniziativa consente l'accesso anticipato alle funzionalità avanzate di generazione video di Veo, offrendo ai creatori l'opportunità di sperimentare con le sue funzionalità innovative. La lista d'attesa per Veo è attualmente aperta, invitando i creatori interessati a registrarsi e a utilizzare i potenti strumenti di Veo nei loro progetti.

Ulteriori informazioni sugli aggiornamenti sull'AI generativa di DeepMind del 2024

Oltre a Veo, DeepMind ha introdotto diversi aggiornamenti all'avanguardia nell'IA generativa per il 2024. Uno di questi aggiornamenti è Imagen 3, il loro modello text-to-image più avanzato finora. Imagen 3 eccelle nella creazione di immagini fotorealistiche e realistiche. Comprende a fondo i prompt in linguaggio naturale e cattura dettagli intricati riducendo al minimo gli artefatti visivi.

Fig 7. Un'immagine generata utilizzando Imagen 3.

DeepMind ha anche sviluppato Lyria, il suo modello più avanzato per la generazione di musica tramite IA. Come parte di questo impegno, DeepMind ha creato una suite di strumenti di IA musicale chiamata Music AI Sandbox. Questi strumenti consentono a musicisti e produttori di esplorare nuove possibilità creative nella composizione musicale e nella trasformazione del suono.

Fig 8. Un esempio di interfaccia utente degli strumenti musicali AI di DeepMind.

Analogamente a Veo, DeepMind ha implementato diverse misure di sicurezza anche per quanto riguarda gli altri aggiornamenti. SynthID sarà utilizzato in tutti questi aggiornamenti come strumento per filigranare e identificare i contenuti generati dall'IA. Questi aggiornamenti di DeepMind promettono di trasformare vari settori offrendo strumenti avanzati, efficienti e responsabili per la creazione di contenuti visivi e audio di alta qualità.

Affrontare la prossima fase dell'IA generativa

I progressi del 2024 di DeepMind nell'IA generativa, tra cui Veo, Imagen 3 e Lyria, segnano un notevole salto di qualità nelle capacità dell'IA. Veo trasforma la creazione di video con la sua capacità di generare video di alta qualità a 1080p da semplici prompt, rendendolo uno strumento versatile per registi e creatori di contenuti. Imagen 3 eccelle nella produzione di immagini fotorealistiche, mentre Lyria introduce nuove possibilità nella generazione di musica con strumenti avanzati di IA.

Queste tecnologie promettono di trasformare vari settori fornendo strumenti efficienti e responsabili per la creazione di contenuti visivi e audio di alta qualità. Con misure di sicurezza come SynthID che garantiscono un utilizzo etico, DeepMind continua ad ampliare i confini dell'IA, aprendo la strada ad applicazioni innovative in futuro.

Immergiti nell'IA visitando il nostro repository GitHub e unendoti alla nostra community. Esplora le nostre pagine delle soluzioni per scoprire come l'IA viene applicata nel settore manifatturiero e in agricoltura.

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti