Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Gerando vídeos com o Veo do Google DeepMind

Abirami Vina

Leitura de 6 min

15 de maio de 2024

Saiba mais sobre o Veo, o mais recente modelo de vídeo generativo do Google DeepMind que pode criar sem esforço vídeos 1080P de alta qualidade a partir de prompts de texto, imagem e vídeo.

Durante a apresentação do Google I/O 2024 em 14 de maio, eles compartilharam as últimas atualizações do DeepMind, sua divisão de IA. Um dos avanços mais empolgantes compartilhados foi seu mais novo modelo de vídeo generativo, o Veo. O Veo pode criar vídeos de alta qualidade em 1080P com base em prompts de texto, imagem e vídeo. Ele ainda permite que você edite vídeos gerados com prompts subsequentes. O Veo leva a IA generativa para o próximo nível. Vamos dar uma olhada mais de perto nos recursos que o Veo oferece. 

Compreendendo as capacidades da Veo

Veo é um modelo generativo de vídeo que utiliza um profundo conhecimento de linguagem e visuais para criar vídeos que correspondem de perto à visão criativa de um usuário. Ele consegue capturar o tom e os detalhes de prompts mais longos com precisão, tornando-o uma ferramenta poderosa para criadores que desejam transformar suas ideias em conteúdo de vídeo preciso.

O usuário pode ter um controle criativo inovador sobre o vídeo gerado, porque o Veo consegue entender técnicas de filmagem como "timelapse" e "imagens aéreas de uma paisagem". Esse controle criativo possibilita que os usuários criem vídeos onde pessoas, animais e objetos se movem naturalmente. Os vídeos gerados pelo Veo são envolventes e visualmente atraentes porque é difícil identificar que foram gerados por um modelo de IA.

O Veo vai além da simples criação de vídeos a partir de prompts. Se você fornecer um vídeo gerado anteriormente e uma solicitação de edição específica, como inserir caiaques em uma vista aérea de uma costa, o Veo pode integrar perfeitamente essa alteração no vídeo original, produzindo uma versão atualizada.

Fig 1. Um exemplo de edição de vídeo usando Veo.

Aqui estão alguns recursos adicionais que o Veo oferece:

  • Edição Mascarada: O Veo pode ajudá-lo a editar áreas definidas de um vídeo.
  • Criação de vídeo inspirada em imagem: Usando uma imagem e um prompt de texto, o Veo pode gerar vídeos que espelham o estilo da imagem e seguem as instruções do prompt.
  • Clipes de vídeo estendidos: o Veo pode criar e estender clipes de vídeo para 60 segundos ou mais, seja a partir de um único prompt ou de uma sequência de prompts que juntos contam uma história.

Vídeos impressionantes que a Veo gerou

Vamos percorrer alguns dos vídeos que a Veo gerou e por que eles são tão impressionantes. 

Gerar um vídeo de um timelapse a partir de um prompt de texto curto é desafiador. Normalmente, o prompt de texto curto não consegue transmitir com precisão as mudanças e movimentos dentro da cena do timelapse. Portanto, é surpreendente que o Veo possa entender o que esperar de um timelapse sem entrar em detalhes. 

Fig 2. Um frame do vídeo time-lapse gerado pelo Veo.

Da mesma forma, gerar vídeos com física precisa não é fácil. O modelo de IA precisa entender e simular leis da física, como gravidade, momento e colisões, para fazer com que os movimentos e as interações pareçam realistas. É impressionante que o Veo seja capaz de modelar com precisão essas dinâmicas sem orientação detalhada de prompts de texto.

Fig 3. Um frame de um vídeo gerado usando Veo captura com precisão a física do movimento das águas-vivas.

Até agora, só vimos vídeos mais curtos gerados por IA devido a limitações computacionais e à complexidade de manter a coerência em sequências mais longas. Na apresentação I/O 2024 do Google, foi demonstrada a incrível capacidade do Veo de criar vídeos mais longos e complexos.

Fig 4. Frames do vídeo mais longo da Veo mostrado na apresentação do Google I/O 2024.

Como o Veo funciona?

Como muitos outros modelos de IA, o Veo se apoia nos ombros de gigantes. Ele se baseia em avanços anteriores, como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, bem como na arquitetura Transformer proprietária do Google e no Gemini. Além disso, para melhorar a capacidade do Veo de interpretar prompts com precisão, as legendas de cada vídeo em seu conjunto de dados de treinamento foram mais detalhadas. 

Com base no fluxo de trabalho do modelo compartilhado pelo Google, veja como o Veo funciona:

  • Prompts de Entrada: Você fornece um prompt de texto e, opcionalmente, um prompt de imagem.
  • Codificação: O prompt de texto é processado por um Codificador UL2, e o prompt de imagem é processado por um codificador de imagem.
  • Prompt Incorporado: As saídas dos codificadores de texto e imagem são combinadas para formar um único prompt incorporado.
  • Modelo de Difusão Latente: O prompt incorporado e um vídeo compactado com ruído são passados para este modelo que gera um vídeo compactado usando-os. O Veo usa representações de vídeo compactadas de alta qualidade, conhecidas como latentes, para melhorar a eficiência, mantendo a qualidade.
  • Decodificação: A etapa final decodifica a saída de vídeo 1080p do vídeo compactado.
Fig 5. Como o Veo funciona.

Um estudo de caso fascinante na produção de filmes

Para testar as capacidades da Veo, a Google juntou-se ao cineasta Donald Glover e ao seu estúdio criativo, Gilga. Eles usaram a Veo para explorar várias técnicas criativas, incluindo tomadas de rastreamento dinâmicas, que exigem um movimento preciso e um enquadramento consistente. 

Fig 6. Usando Veo no processo de filmagem.

Tradicionalmente, os cineastas enfrentam limitações devido a restrições de tempo e recursos. Com o Veo, Glover e sua equipe puderam experimentar e gerar rapidamente tomadas complexas, o que, por sua vez, proporcionou mais flexibilidade e inovação no processo de filmagem.

Com o Veo, Glover e sua equipe puderam experimentar e gerar rapidamente tomadas complexas antes da filmagem real. Por exemplo, eles podiam testar várias tomadas de rastreamento dinâmico para ver como ficariam e fazer ajustes conforme necessário. Esse processo de pré-visualização ajudou-os a refinar suas ideias e garantir que as tomadas funcionassem como pretendido, reduzindo, em última análise, o número de tomadas necessárias durante a filmagem real. Eles conseguiram criar um estudo de caso convincente para demonstrar o potencial do Veo para mudar a indústria cinematográfica. Ele oferece uma maneira mais rápida e eficiente de dar vida a visões criativas.

Usos práticos do Veo em vários setores 

As capacidades avançadas de geração de vídeo do Veo têm aplicações práticas em diversos setores. Em publicidade, ele pode produzir rapidamente comerciais personalizados e de alta qualidade para públicos-alvo, economizando tempo e custos de produção. Na educação, o Veo pode criar vídeos instrucionais envolventes, tornando conceitos complexos mais fáceis de entender. 

Empresas podem usar o Veo para treinamento e comunicações corporativas. Profissionais de saúde podem usar o Veo para simular procedimentos médicos para fins de treinamento. Em relação a eventos e conferências virtuais, o Veo pode criar simulações realistas de locais e palcos, oferecendo aos participantes uma experiência envolvente e interativa de qualquer lugar. Os organizadores se beneficiam com o alcance expandido e insights valiosos para eventos futuros. Graças ao Veo, inúmeras oportunidades se abriram.

Quando um modelo de IA tem o potencial de impactar diferentes setores, é importante ter em mente a segurança e a ética da IA. Para permitir uma adoção mais ampla e garantir um uso responsável, a Google implementou várias medidas de segurança. Os vídeos criados pelo Veo são marcados com SynthID, uma ferramenta para marcar e identificar conteúdo gerado por IA. O SynthId garante a transparência e ajuda a mitigar os riscos de privacidade, direitos de autor e viés. Além disso, todos os vídeos gerados passam por filtros de segurança e processos de verificação de memorização. Estas salvaguardas tornam o Veo uma ferramenta valiosa e ética que apoia a produção de vídeo responsável e inovadora.

Onde acessar o Veo

Nas próximas semanas, o Google começará a oferecer alguns dos recursos inovadores do Veo para criadores selecionados por meio do VideoFX, uma nova ferramenta disponível no labs.google. Essa iniciativa permite o acesso antecipado aos recursos avançados de geração de vídeo do Veo, dando aos criadores a oportunidade de experimentar seus recursos inovadores. A lista de espera para o Veo está atualmente aberta, convidando os criadores interessados a se inscrever e usar as ferramentas poderosas do Veo em seus projetos.

Mais sobre as atualizações de IA generativa da DeepMind em 2024

Além do Veo, a DeepMind introduziu várias atualizações de ponta em IA generativa para 2024. Uma dessas atualizações é o Imagen 3, o seu modelo de texto para imagem mais avançado até agora. O Imagen 3 destaca-se na criação de imagens fotorrealistas e realistas. Ele entende os prompts de linguagem natural profundamente e captura detalhes intrincados, minimizando artefatos visuais.

Fig 7. Uma imagem gerada usando o Imagen 3.

A DeepMind também desenvolveu o Lyria, seu modelo mais avançado para geração de música por IA. Como parte desse esforço, a DeepMind criou um conjunto de ferramentas de IA musical chamado Music AI Sandbox. Essas ferramentas permitem que músicos e produtores explorem novas possibilidades criativas na composição musical e na transformação de som.

Fig 8. Um exemplo de UI das ferramentas de música de IA do DeepMind.

Semelhante ao Veo, a DeepMind também implementou várias medidas de segurança em relação às suas outras atualizações. O SynthID será usado nessas atualizações como uma ferramenta para marca d'água e identificação de conteúdo gerado por IA. Essas atualizações da DeepMind prometem transformar vários setores, oferecendo ferramentas avançadas, eficientes e responsáveis para criar conteúdo visual e de áudio de alta qualidade.

Navegando pela próxima fase da IA Generativa

Os avanços da DeepMind em IA generativa em 2024, incluindo Veo, Imagen 3 e Lyria, marcam um salto considerável nas capacidades de IA. O Veo transforma a criação de vídeo com sua capacidade de gerar vídeos de alta qualidade em 1080p a partir de prompts simples, tornando-o uma ferramenta versátil para cineastas e criadores de conteúdo. O Imagen 3 se destaca na produção de imagens fotorrealistas, enquanto o Lyria introduz novas possibilidades na geração de música com ferramentas avançadas de IA.

Essas tecnologias prometem transformar vários setores, fornecendo ferramentas eficientes e responsáveis para criar conteúdo visual e de áudio de alta qualidade. Com medidas de segurança como o SynthID, garantindo o uso ético, o DeepMind continua a expandir os limites da IA, abrindo caminho para aplicações inovadoras no futuro.

Mergulhe na IA visitando nosso repositório GitHub e juntando-se à nossa comunidade. Explore nossas páginas de soluções para saber como a IA é aplicada na manufatura e na agricultura.

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência