Yolo Vision Shenzhen
Shenzhen
Junte-se agora

Gerar vídeos com o Veo do Google DeepMind

Abirami Vina

Leitura de 6 min

15 de maio de 2024

Saiba mais sobre o Veo, o mais recente modelo de vídeo generativo do Google DeepMind, que pode criar facilmente vídeos 1080P de alta qualidade a partir de instruções de texto, imagem e vídeo.

Durante a apresentação I/O 2024 daGoogle, a 14 de maio, foram partilhadas as últimas actualizações da DeepMind, a sua divisão de IA. Um dos avanços mais interessantes partilhados foi o seu mais recente modelo de vídeo generativo, Veo. O Veo pode criar vídeos 1080P de alta qualidade com base em instruções de texto, imagem e vídeo. Até permite editar os vídeos gerados com instruções subsequentes. O Veo leva a IA generativa para o próximo nível. Vamos ver mais de perto as funcionalidades que o Veo oferece. 

Compreendendo as capacidades da Veo

Veo é um modelo generativo de vídeo que utiliza um profundo conhecimento de linguagem e visuais para criar vídeos que correspondem de perto à visão criativa de um usuário. Ele consegue capturar o tom e os detalhes de prompts mais longos com precisão, tornando-o uma ferramenta poderosa para criadores que desejam transformar suas ideias em conteúdo de vídeo preciso.

O usuário pode ter um controle criativo inovador sobre o vídeo gerado, porque o Veo consegue entender técnicas de filmagem como "timelapse" e "imagens aéreas de uma paisagem". Esse controle criativo possibilita que os usuários criem vídeos onde pessoas, animais e objetos se movem naturalmente. Os vídeos gerados pelo Veo são envolventes e visualmente atraentes porque é difícil identificar que foram gerados por um modelo de IA.

O Veo vai além da simples criação de vídeos a partir de prompts. Se você fornecer um vídeo gerado anteriormente e uma solicitação de edição específica, como inserir caiaques em uma vista aérea de uma costa, o Veo pode integrar perfeitamente essa alteração no vídeo original, produzindo uma versão atualizada.

Fig 1. Um exemplo de edição de vídeo usando Veo.

Aqui estão alguns recursos adicionais que o Veo oferece:

  • Edição Mascarada: O Veo pode ajudá-lo a editar áreas definidas de um vídeo.
  • Criação de vídeo inspirada em imagem: Usando uma imagem e um prompt de texto, o Veo pode gerar vídeos que espelham o estilo da imagem e seguem as instruções do prompt.
  • Clipes de vídeo estendidos: o Veo pode criar e estender clipes de vídeo para 60 segundos ou mais, seja a partir de um único prompt ou de uma sequência de prompts que juntos contam uma história.

Vídeos impressionantes que a Veo gerou

Vamos percorrer alguns dos vídeos que a Veo gerou e por que eles são tão impressionantes. 

Gerar um vídeo de um timelapse a partir de um prompt de texto curto é desafiador. Normalmente, o prompt de texto curto não consegue transmitir com precisão as mudanças e movimentos dentro da cena do timelapse. Portanto, é surpreendente que o Veo possa entender o que esperar de um timelapse sem entrar em detalhes. 

Fig 2. Um frame do vídeo time-lapse gerado pelo Veo.

Da mesma forma, gerar vídeos com física precisa não é fácil. O modelo de IA precisa entender e simular leis da física, como gravidade, momento e colisões, para fazer com que os movimentos e as interações pareçam realistas. É impressionante que o Veo seja capaz de modelar com precisão essas dinâmicas sem orientação detalhada de prompts de texto.

Fig 3. Um frame de um vídeo gerado usando Veo captura com precisão a física do movimento das águas-vivas.

Até agora, só vimos vídeos mais curtos gerados por IA devido a limitações computacionais e à complexidade de manter a coerência em sequências mais longas. Na apresentação do GoogleI/O 2024, foi mostrada a capacidade alucinante do Veo para criar vídeos mais longos e mais complexos.

Fig. 4. Fotogramas do vídeo Veo mais longo exibido na apresentação Google 2024 I/O.

Como o Veo funciona?

Tal como muitos outros modelos de IA, o Veo assenta em ombros de gigantes. Baseia-se em avanços anteriores, como a Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, bem como na arquitetura Transformer e Gemini, propriedade da Google. Além disso, para melhorar a capacidade do Veo para interpretar os avisos com precisão, as legendas de cada vídeo no seu conjunto de dados de treino eram mais detalhadas. 

Com base no modelo aproximado de fluxo de trabalho partilhado pela Google, eis como funciona o Veo:

  • Prompts de Entrada: Você fornece um prompt de texto e, opcionalmente, um prompt de imagem.
  • Codificação: O prompt de texto é processado por um Codificador UL2, e o prompt de imagem é processado por um codificador de imagem.
  • Prompt Incorporado: As saídas dos codificadores de texto e imagem são combinadas para formar um único prompt incorporado.
  • Modelo de Difusão Latente: O prompt incorporado e um vídeo compactado com ruído são passados para este modelo que gera um vídeo compactado usando-os. O Veo usa representações de vídeo compactadas de alta qualidade, conhecidas como latentes, para melhorar a eficiência, mantendo a qualidade.
  • Decodificação: A etapa final decodifica a saída de vídeo 1080p do vídeo compactado.
Fig 5. Como o Veo funciona.

Um estudo de caso fascinante na produção de filmes

Para testar as capacidades do Veo, Google juntou-se ao realizador Donald Glover e ao seu estúdio criativo, Gilga. Utilizaram o Veo para explorar várias técnicas criativas, incluindo planos de seguimento dinâmicos, que requerem movimentos precisos e enquadramentos consistentes. 

Fig 6. Usando Veo no processo de filmagem.

Tradicionalmente, os cineastas enfrentam limitações devido a restrições de tempo e recursos. Com o Veo, Glover e sua equipe puderam experimentar e gerar rapidamente tomadas complexas, o que, por sua vez, proporcionou mais flexibilidade e inovação no processo de filmagem.

Com o Veo, Glover e sua equipe puderam experimentar e gerar rapidamente tomadas complexas antes da filmagem real. Por exemplo, eles podiam testar várias tomadas de rastreamento dinâmico para ver como ficariam e fazer ajustes conforme necessário. Esse processo de pré-visualização ajudou-os a refinar suas ideias e garantir que as tomadas funcionassem como pretendido, reduzindo, em última análise, o número de tomadas necessárias durante a filmagem real. Eles conseguiram criar um estudo de caso convincente para demonstrar o potencial do Veo para mudar a indústria cinematográfica. Ele oferece uma maneira mais rápida e eficiente de dar vida a visões criativas.

Usos práticos do Veo em vários setores 

As capacidades avançadas de geração de vídeo do Veo têm aplicações práticas em diversos setores. Em publicidade, ele pode produzir rapidamente comerciais personalizados e de alta qualidade para públicos-alvo, economizando tempo e custos de produção. Na educação, o Veo pode criar vídeos instrucionais envolventes, tornando conceitos complexos mais fáceis de entender. 

Empresas podem usar o Veo para treinamento e comunicações corporativas. Profissionais de saúde podem usar o Veo para simular procedimentos médicos para fins de treinamento. Em relação a eventos e conferências virtuais, o Veo pode criar simulações realistas de locais e palcos, oferecendo aos participantes uma experiência envolvente e interativa de qualquer lugar. Os organizadores se beneficiam com o alcance expandido e insights valiosos para eventos futuros. Graças ao Veo, inúmeras oportunidades se abriram.

Quando um modelo de IA tem o potencial de afetar diferentes sectores, é importante ter em conta a segurança e a ética da IA. Para permitir uma adoção mais ampla e garantir uma utilização responsável, Google implementou várias medidas de segurança. Os vídeos criados pela Veo são marcados com uma marca de água utilizando o SynthID, uma ferramenta para marcar e identificar conteúdos gerados por IA. O SynthId garante a transparência e ajuda a mitigar os riscos de privacidade, direitos de autor e preconceitos. Para além disso, todos os vídeos gerados passam por filtros de segurança e processos de verificação de memorização. Estas salvaguardas fazem do Veo uma ferramenta valiosa e ética que apoia a produção de vídeo responsável e inovadora.

Onde acessar o Veo

Nas próximas semanas, Google começará a oferecer algumas das funcionalidades inovadoras do Veo a criadores selecionados através do VideoFX, uma nova ferramenta disponível em labsgoogle. Esta iniciativa permite o acesso antecipado às capacidades avançadas de geração de vídeo do Veo, dando aos criadores a oportunidade de experimentarem as suas funcionalidades inovadoras. A lista de espera para o Veo está atualmente aberta, convidando os criadores interessados a inscreverem-se e a utilizarem as poderosas ferramentas do Veo nos seus projectos.

Mais sobre as atualizações de IA generativa da DeepMind em 2024

Além do Veo, a DeepMind introduziu várias atualizações de ponta em IA generativa para 2024. Uma dessas atualizações é o Imagen 3, o seu modelo de texto para imagem mais avançado até agora. O Imagen 3 destaca-se na criação de imagens fotorrealistas e realistas. Ele entende os prompts de linguagem natural profundamente e captura detalhes intrincados, minimizando artefatos visuais.

Fig 7. Uma imagem gerada usando o Imagen 3.

A DeepMind também desenvolveu o Lyria, seu modelo mais avançado para geração de música por IA. Como parte desse esforço, a DeepMind criou um conjunto de ferramentas de IA musical chamado Music AI Sandbox. Essas ferramentas permitem que músicos e produtores explorem novas possibilidades criativas na composição musical e na transformação de som.

Fig 8. Um exemplo de UI das ferramentas de música de IA do DeepMind.

Semelhante ao Veo, a DeepMind também implementou várias medidas de segurança em relação às suas outras atualizações. O SynthID será usado nessas atualizações como uma ferramenta para marca d'água e identificação de conteúdo gerado por IA. Essas atualizações da DeepMind prometem transformar vários setores, oferecendo ferramentas avançadas, eficientes e responsáveis para criar conteúdo visual e de áudio de alta qualidade.

Navegando pela próxima fase da IA Generativa

Os avanços da DeepMind em IA generativa em 2024, incluindo Veo, Imagen 3 e Lyria, marcam um salto considerável nas capacidades de IA. O Veo transforma a criação de vídeo com sua capacidade de gerar vídeos de alta qualidade em 1080p a partir de prompts simples, tornando-o uma ferramenta versátil para cineastas e criadores de conteúdo. O Imagen 3 se destaca na produção de imagens fotorrealistas, enquanto o Lyria introduz novas possibilidades na geração de música com ferramentas avançadas de IA.

Essas tecnologias prometem transformar vários setores, fornecendo ferramentas eficientes e responsáveis para criar conteúdo visual e de áudio de alta qualidade. Com medidas de segurança como o SynthID, garantindo o uso ético, o DeepMind continua a expandir os limites da IA, abrindo caminho para aplicações inovadoras no futuro.

Mergulhe na IA visitando nosso repositório GitHub e juntando-se à nossa comunidade. Explore nossas páginas de soluções para saber como a IA é aplicada na manufatura e na agricultura.

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente