Generare video con Veo di Google DeepMind
Scopri di più su Veo, l'ultimo modello video generativo di Google DeepMind che può creare senza sforzo video 1080P di alta qualità da prompt di testo, immagine e video.

Durante la presentazione di Google I/O 2024 del 14 maggio, sono stati condivisi gli ultimi aggiornamenti di DeepMind, la loro divisione AI. Uno dei progressi più entusiasmanti condivisi è stato il loro nuovo modello di generazione video, Veo. Veo può creare video 1080P di alta qualità basati su prompt di testo, immagini e video. Ti permette persino di modificare i video generati con prompt successivi. Veo porta l'AI generativa a un livello superiore. Diamo un'occhiata più da vicino alle funzionalità offerte da Veo.
Link to this sectionComprendere le capacità di Veo#
Veo è un modello di generazione video che utilizza una profonda comprensione del linguaggio e della grafica per creare video che corrispondono fedelmente alla visione creativa dell'utente. È in grado di catturare accuratamente il tono e i dettagli di prompt più lunghi, rendendolo uno strumento potente per i creatori che desiderano trasformare le proprie idee in contenuti video precisi.
L'utente può avere un controllo creativo rivoluzionario sul video generato perché Veo può comprendere tecniche cinematografiche come il "timelapse" e le "riprese aeree di un paesaggio". Questo controllo creativo rende possibile agli utenti creare video in cui persone, animali e oggetti si muovono naturalmente. I video generati da Veo sono coinvolgenti e visivamente attraenti perché è difficile notare che sono generati da un modello AI.
Veo va oltre la semplice creazione di video da prompt. Se fornisci un video precedentemente generato e una richiesta di modifica specifica, come l'inserimento di kayak in una vista aerea di una costa, Veo può integrare perfettamente questa modifica nel video originale, producendo una versione aggiornata.

Fig 1. Un esempio di editing video utilizzando Veo.
Ecco alcune altre funzionalità offerte da Veo:
- Editing con maschera: Veo può aiutarti a modificare aree definite di un video.
- Creazione di video ispirata alle immagini: Utilizzando un'immagine e un prompt di testo, Veo può generare video che rispecchiano lo stile dell'immagine e seguono le indicazioni del prompt.
- Clip video estese: Veo può creare ed estendere clip video fino a 60 secondi o più, sia da un singolo prompt che da una sequenza di prompt che insieme raccontano una storia.
Link to this sectionVideo mozzafiato generati da Veo#
Analizziamo alcuni dei video che Veo ha generato e perché sono così mozzafiato.
Generare un video timelapse da un breve prompt di testo è una sfida. Di solito, il breve prompt di testo non riesce a trasmettere accuratamente cambiamenti e movimenti all'interno della scena del timelapse. Pertanto, è sorprendente che Veo possa capire cosa aspettarsi da un timelapse senza entrare nei dettagli.

Fig 2. Un fotogramma dal video timelapse generato da Veo.
Allo stesso modo, generare video con una fisica accurata non è semplice. Il modello AI deve comprendere e simulare le leggi della fisica come gravità, momento e collisioni per rendere i movimenti e le interazioni realistici. È impressionante che Veo sia in grado di modellare accuratamente queste dinamiche senza una guida dettagliata dai prompt di testo.

Fig 3. Un fotogramma da un video generato utilizzando Veo che cattura accuratamente la fisica del movimento delle meduse.
Fino ad ora, abbiamo visto solo video più brevi generati dall'AI a causa di limitazioni computazionali e della complessità nel mantenere la coerenza su sequenze più lunghe. Alla presentazione di Google I/O 2024 è stata mostrata l'incredibile capacità di Veo di creare video più lunghi e complessi.

Fig 4. Fotogrammi dal video più lungo di Veo mostrato alla presentazione di Google I/O 2024.
Link to this sectionCome funziona Veo?#
Come molti altri modelli AI, Veo poggia sulle spalle dei giganti. Attinge da progressi precedenti come Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, oltre all'architettura Transformer proprietaria di Google e Gemini. Inoltre, per migliorare la capacità di Veo di interpretare accuratamente i prompt, le didascalie di ogni video nel suo set di dati di addestramento erano più dettagliate.
Basandosi sul flusso di lavoro approssimativo del modello condiviso da Google, ecco come funziona Veo:
- Prompt di input: Fornisci un prompt di testo e, opzionalmente, un prompt di immagine.
- Codifica: Il prompt di testo viene elaborato da un codificatore UL2 e il prompt di immagine viene elaborato da un codificatore di immagini.
- Prompt integrato: Gli output dei codificatori di testo e immagine vengono combinati per formare un singolo prompt integrato.
- Modello di diffusione latente: Il prompt integrato e un video compresso rumoroso vengono passati a questo modello che genera un video compresso utilizzandoli. Veo utilizza rappresentazioni video compresse di alta qualità, note come latenti, per migliorare l'efficienza mantenendo la qualità.
- Decodifica: Il passaggio finale decodifica l'output video 1080p dal video compresso.

Fig 5. Come funziona Veo.
Link to this sectionUn caso di studio avvincente nel cinema#
Per testare le capacità di Veo, Google ha collaborato con il regista Donald Glover e il suo studio creativo, Gilga. Hanno utilizzato Veo per esplorare varie tecniche creative, inclusi i carrelli dinamici, che richiedono un movimento preciso e un'inquadratura coerente.

Fig 6. Utilizzo di Veo nel processo di produzione cinematografica.
Tradizionalmente, i registi affrontano limitazioni dovute a vincoli di tempo e risorse. Con Veo, Glover e il suo team hanno potuto sperimentare rapidamente e generare riprese complesse, il che, a sua volta, ha fornito maggiore flessibilità e innovazione nel processo cinematografico.
Con Veo, Glover e il suo team hanno potuto sperimentare rapidamente e generare riprese complesse prima delle riprese effettive. Ad esempio, potevano testare vari carrelli dinamici per vedere come apparirebbero e apportare modifiche secondo necessità. Questo processo di pre-visualizzazione li ha aiutati a rifinire le loro idee e garantire che le riprese funzionassero come previsto, riducendo infine il numero di riprese necessarie durante le riprese effettive. Sono riusciti a creare un caso di studio avvincente per dimostrare il potenziale di Veo nel cambiare l'industria cinematografica. Offre un modo più rapido ed efficiente per dare vita a visioni creative.
Link to this sectionUsi pratici di Veo in vari settori#
Le avanzate capacità di generazione video di Veo hanno applicazioni pratiche in molti settori. Nella pubblicità, può produrre rapidamente spot pubblicitari personalizzati di alta qualità per pubblici mirati, risparmiando tempo e costi di produzione. Nell'istruzione, Veo può creare video didattici coinvolgenti, rendendo concetti complessi più facili da comprendere.
Le aziende possono utilizzare Veo per la formazione e le comunicazioni aziendali. I professionisti sanitari potrebbero utilizzare Veo per simulare procedure mediche a scopo formativo. Per quanto riguarda eventi virtuali e conferenze, Veo può creare simulazioni realistiche di sedi e palchi, offrendo ai partecipanti un'esperienza coinvolgente e interattiva da qualsiasi luogo. Gli organizzatori beneficiano di una portata ampliata e di preziosi insight per eventi futuri. Grazie a Veo, si sono aperte innumerevoli opportunità.
Quando un modello AI ha il potenziale per toccare diversi settori, è importante tenere a mente la sicurezza e l'AI etica. Per consentire un'adozione più ampia e garantire un uso responsabile, Google ha implementato diverse misure di sicurezza. I video creati da Veo sono filigranati utilizzando SynthID, uno strumento per filigranare e identificare contenuti generati dall'AI. SynthID garantisce trasparenza e aiuta a mitigare i rischi di privacy, copyright e pregiudizio. Oltre a questo, tutti i video generati passano attraverso filtri di sicurezza e processi di controllo della memorizzazione. Queste tutele rendono Veo uno strumento prezioso ed etico che supporta una produzione video responsabile e innovativa.
Link to this sectionDove accedere a Veo#
Nelle prossime settimane, Google inizierà a offrire alcune delle funzionalità rivoluzionarie di Veo a creatori selezionati tramite VideoFX, un nuovo strumento disponibile su labs.google. Questa iniziativa consente un accesso anticipato alle avanzate capacità di generazione video di Veo, offrendo ai creatori l'opportunità di sperimentare con le sue funzionalità innovative. La lista d'attesa per Veo è attualmente aperta, invitando i creatori interessati a registrarsi e utilizzare i potenti strumenti di Veo nei loro progetti.
Link to this sectionAltro sugli aggiornamenti dell'AI generativa del 2024 di DeepMind#
Oltre a Veo, DeepMind ha introdotto diversi aggiornamenti all'avanguardia nell'AI generativa per il 2024. Uno di questi aggiornamenti è Imagen 3, il loro modello text-to-image più avanzato finora. Imagen 3 eccelle nella creazione di immagini fotorealistiche e realistiche. Comprende profondamente i prompt in linguaggio naturale e cattura dettagli complessi riducendo al minimo gli artefatti visivi.

Fig 7. Un'immagine generata utilizzando Imagen 3.
DeepMind ha anche sviluppato Lyria, il suo modello più avanzato per la generazione di musica AI. Come parte di questo sforzo, DeepMind ha creato una suite di strumenti musicali AI chiamata Music AI Sandbox. Questi strumenti consentono a musicisti e produttori di esplorare nuove possibilità creative nella composizione musicale e nella trasformazione del suono.

Fig 8. Un esempio di interfaccia utente degli strumenti musicali AI di DeepMind.
Analogamente a Veo, DeepMind ha implementato diverse misure di sicurezza anche riguardo ai suoi altri aggiornamenti. Il SynthID verrà utilizzato in questi aggiornamenti come strumento per filigranare e identificare contenuti generati dall'AI. Questi aggiornamenti di DeepMind promettono di trasformare vari settori offrendo strumenti avanzati, efficienti e responsabili per creare contenuti visivi e audio di alta qualità.
Link to this sectionNavigare nella prossima fase dell'AI generativa#
I progressi dell'AI generativa del 2024 di DeepMind, inclusi Veo, Imagen 3 e Lyria, segnano un notevole salto nelle capacità dell'AI. Veo trasforma la creazione video con la sua capacità di generare video 1080p di alta qualità da semplici prompt, rendendolo uno strumento versatile per registi e creatori di contenuti. Imagen 3 brilla nella produzione di immagini fotorealistiche, mentre Lyria introduce nuove possibilità nella generazione musicale con strumenti AI avanzati.
Queste tecnologie promettono di trasformare vari settori fornendo strumenti efficienti e responsabili per creare contenuti visivi e audio di alta qualità. Con misure di sicurezza come SynthID che garantiscono un uso etico, DeepMind continua ad espandere i confini dell'AI, aprendo la strada a innovazioni future.
Tuffati nell'AI visitando il nostro repository GitHub e unendoti alla nostra community. Esplora le nostre pagine sulle soluzioni per scoprire come l'AI viene applicata nella produzione e nell'agricoltura.






