Gerar vídeos com o Veo do Google DeepMind

Abirami Vina

6 min. de leitura

15 de maio de 2024

Saiba mais sobre o Veo, o mais recente modelo de vídeo generativo do Google DeepMind, que pode criar facilmente vídeos 1080P de alta qualidade a partir de instruções de texto, imagem e vídeo.

Durante a apresentação I/O 2024 da Google, a 14 de maio, foram partilhadas as últimas actualizações da DeepMind, a sua divisão de IA. Um dos avanços mais interessantes partilhados foi o seu mais recente modelo de vídeo generativo, Veo. O Veo pode criar vídeos 1080P de alta qualidade com base em instruções de texto, imagem e vídeo. Até permite editar os vídeos gerados com instruções subsequentes. O Veo leva a IA generativa para o próximo nível. Vamos ver mais de perto as funcionalidades que o Veo oferece. 

Compreender as capacidades da Veo

O Veo é um modelo de vídeo generativo que utiliza uma compreensão profunda da linguagem e dos elementos visuais para criar vídeos que se aproximam da visão criativa de um utilizador. Consegue captar com precisão o tom e os detalhes de pedidos mais longos, o que o torna uma ferramenta poderosa para os criadores que pretendem transformar as suas ideias em conteúdos de vídeo precisos.

O utilizador pode ter um controlo criativo inovador sobre o vídeo gerado, porque o Veo consegue compreender técnicas cinematográficas como "timelapse" e "planos aéreos de uma paisagem". Este controlo criativo permite aos utilizadores criar vídeos em que pessoas, animais e objectos se movem naturalmente. Os vídeos gerados pelo Veo são envolventes e visualmente atractivos porque é difícil perceber que são gerados por um modelo de IA.

A Veo vai além da mera criação de vídeos a partir de prompts. Se fornecer um vídeo gerado anteriormente e um pedido de edição específico, como a inserção de caiaques numa vista aérea de uma linha costeira, a Veo pode integrar perfeitamente esta alteração no vídeo original, produzindo uma versão actualizada.

Fig. 1. Um exemplo de edição de vídeo utilizando o Veo.

Eis mais algumas caraterísticas que o Veo oferece:

  • Edição com máscara: O Veo pode ajudá-lo a editar áreas definidas de um vídeo.
  • Criação de vídeos inspirados em imagens: Utilizando uma imagem e um texto, o Veo pode gerar vídeos que reflectem o estilo da imagem e seguem as instruções do texto.
  • Videoclipes estendidos: O Veo pode criar e prolongar clips de vídeo para 60 segundos ou mais, a partir de uma única solicitação ou de uma sequência de solicitações que, em conjunto, contam uma história.

Vídeos de cortar a respiração que a Veo produziu

Vejamos alguns dos vídeos que a Veo produziu e porque é que é tão impressionante. 

Gerar um vídeo de um lapso de tempo a partir de um texto curto é um desafio. Normalmente, o texto curto não consegue transmitir com exatidão as mudanças e os movimentos dentro da cena do lapso de tempo. Por isso, é espantoso que o Veo consiga perceber o que esperar de um lapso de tempo sem entrar em pormenores. 

Fig. 2. Um fotograma do vídeo de lapso de tempo gerado por Veo.

Do mesmo modo, gerar vídeos com física exacta não é fácil. O modelo de IA tem de compreender e simular as leis da física, como a gravidade, o impulso e as colisões, para que os movimentos e as interações pareçam realistas. É impressionante o facto de o Veo ser capaz de modelar com precisão estas dinâmicas sem uma orientação pormenorizada de instruções de texto.

Fig. 3. Um fotograma de um vídeo gerado com o Veo capta com precisão a física do movimento da medusa.

Até agora, só vimos vídeos mais curtos gerados por IA devido a limitações computacionais e à complexidade de manter a coerência em sequências mais longas. Na apresentação do Google I/O 2024, foi mostrada a capacidade alucinante do Veo para criar vídeos mais longos e mais complexos.

Fig. 4. Fotogramas do vídeo Veo mais longo exibido na apresentação do Google 2024 I/O.

Como é que o Veo funciona?

Tal como muitos outros modelos de IA, o Veo assenta em ombros de gigantes. Baseia-se em avanços anteriores, como a Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, bem como na arquitetura Transformer e Gemini, propriedade da Google. Além disso, para melhorar a capacidade do Veo para interpretar os avisos com precisão, as legendas de cada vídeo no seu conjunto de dados de treino eram mais detalhadas. 

Com base no modelo aproximado de fluxo de trabalho partilhado pela Google, eis como funciona o Veo:

  • Solicitações de entrada: Fornece um prompt de texto e, opcionalmente, um prompt de imagem.
  • Codificação: O prompt de texto é processado por um codificador UL2 e o prompt de imagem é processado por um codificador de imagem.
  • Prompt incorporado: As saídas dos codificadores de texto e imagem são combinadas para formar um único prompt incorporado.
  • Modelo de difusão latente: O prompt incorporado e um vídeo comprimido com ruído são passados para este modelo que gera um vídeo comprimido utilizando-os. O Veo utiliza representações de vídeo comprimido de alta qualidade, conhecidas como latentes, para melhorar a eficiência e manter a qualidade.
  • Decodificação: A etapa final descodifica a saída de vídeo 1080p a partir do vídeo comprimido.
Fig. 5. Como funciona o Veo.

Um estudo de caso convincente sobre a realização de filmes

Para testar as capacidades do Veo, a Google juntou-se ao realizador Donald Glover e ao seu estúdio criativo, Gilga. Utilizaram o Veo para explorar várias técnicas criativas, incluindo planos de seguimento dinâmicos, que requerem movimentos precisos e enquadramentos consistentes. 

Fig. 6. Utilização do Veo no processo de produção de filmes.

Tradicionalmente, os realizadores enfrentam limitações devido a restrições de tempo e recursos. Com o Veo, Glover e a sua equipa puderam experimentar e gerar rapidamente planos complexos, o que, por sua vez, proporcionou mais flexibilidade e inovação no processo de realização do filme.

Com o Veo, Glover e a sua equipa puderam experimentar e gerar rapidamente planos complexos antes da filmagem propriamente dita. Por exemplo, podiam testar vários planos de seguimento dinâmico para ver como ficariam e fazer os ajustes necessários. Este processo de pré-visualização ajudou-os a refinar as suas ideias e a garantir que os planos funcionariam como pretendido, reduzindo assim o número de planos necessários durante as filmagens. Conseguiram criar um estudo de caso convincente para demonstrar o potencial do Veo para mudar a indústria cinematográfica. O Veo oferece uma forma mais rápida e eficiente de dar vida a visões criativas.

Utilizações práticas do Veo em vários sectores 

As capacidades avançadas de geração de vídeo da Veo têm aplicações práticas em muitos sectores. Na publicidade, pode produzir rapidamente anúncios personalizados e de alta qualidade para públicos-alvo, poupando tempo e custos de produção. No sector da educação, a Veo pode criar vídeos de instrução cativantes, facilitando a compreensão de conceitos complexos. 

As empresas podem utilizar o Veo para formação e comunicações empresariais. Os profissionais de saúde podem utilizar a Veo para simular procedimentos médicos para fins de formação. No que diz respeito a eventos e conferências virtuais, a Veo pode criar simulações reais de locais e palcos, oferecendo aos participantes uma experiência envolvente e interactiva a partir de qualquer lugar. Os organizadores beneficiam de um maior alcance e de informações valiosas para eventos futuros. Graças à Veo, abriram-se inúmeras oportunidades.

Quando um modelo de IA tem o potencial de afetar diferentes sectores, é importante ter em conta a segurança e a ética da IA. Para permitir uma adoção mais ampla e garantir uma utilização responsável, a Google implementou várias medidas de segurança. Os vídeos criados pela Veo são marcados com uma marca de água utilizando o SynthID, uma ferramenta para marcar e identificar conteúdos gerados por IA. O SynthId garante a transparência e ajuda a mitigar os riscos de privacidade, direitos de autor e preconceitos. Para além disso, todos os vídeos gerados passam por filtros de segurança e processos de verificação de memorização. Estas salvaguardas fazem do Veo uma ferramenta valiosa e ética que apoia a produção de vídeo responsável e inovadora.

Onde aceder ao Veo

Nas próximas semanas, a Google começará a oferecer algumas das funcionalidades inovadoras do Veo a criadores selecionados através do VideoFX, uma nova ferramenta disponível em labs.google. Esta iniciativa permite o acesso antecipado às capacidades avançadas de geração de vídeo do Veo, dando aos criadores a oportunidade de experimentarem as suas funcionalidades inovadoras. A lista de espera para o Veo está atualmente aberta, convidando os criadores interessados a inscreverem-se e a utilizarem as poderosas ferramentas do Veo nos seus projectos.

Mais informações sobre as actualizações da IA generativa do DeepMind para 2024

Para além do Veo, a DeepMind introduziu várias actualizações de ponta em IA generativa para 2024. Uma dessas actualizações é o Imagen 3, o seu modelo de texto para imagem mais avançado até à data. O Imagen 3 é excelente na criação de imagens fotorrealistas e realistas. Compreende profundamente as solicitações de linguagem natural e capta detalhes intrincados, minimizando os artefactos visuais.

Fig. 7. Uma imagem gerada com o Imagen 3.

A DeepMind também desenvolveu o Lyria, o seu modelo mais avançado de geração de música por IA. Como parte deste esforço, a DeepMind criou um conjunto de ferramentas de IA musical denominado Music AI Sandbox. Estas ferramentas permitem aos músicos e produtores explorar novas possibilidades criativas no domínio da composição musical e da transformação sonora.

Fig. 8. Um exemplo de interface de utilizador das ferramentas de música com IA da DeepMind.

À semelhança do Veo, a DeepMind também implementou várias medidas de segurança relativamente às suas outras actualizações. O SynthID será utilizado em todas estas actualizações como uma ferramenta de marca de água e de identificação de conteúdos gerados por IA. Estas actualizações da DeepMind prometem transformar várias indústrias, oferecendo ferramentas avançadas, eficientes e responsáveis para a criação de conteúdos visuais e áudio de alta qualidade.

Navegar na próxima fase da IA generativa

Os avanços da IA generativa da DeepMind em 2024, incluindo Veo, Imagen 3 e Lyria, marcam um salto considerável nas capacidades de IA. O Veo transforma a criação de vídeos com sua capacidade de gerar vídeos de alta qualidade em 1080p a partir de comandos simples, tornando-o uma ferramenta versátil para cineastas e criadores de conteúdo. O Imagen 3 brilha na produção de imagens fotorrealistas, enquanto o Lyria introduz novas possibilidades na criação de música com ferramentas de IA avançadas.

Estas tecnologias prometem transformar vários sectores, fornecendo ferramentas eficientes e responsáveis para a criação de conteúdos visuais e áudio de alta qualidade. Com medidas de segurança como o SynthID a garantir uma utilização ética, a DeepMind continua a expandir as fronteiras da IA, abrindo caminho para aplicações inovadoras no futuro.

Mergulhe na IA visitando o nosso repositório GitHub e juntando-se à nossa comunidade. Explore as nossas páginas de soluções para saber como a IA é aplicada no fabrico e na agricultura.

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência