Gerando vídeos com o Veo do Google DeepMind
Saiba mais sobre o Veo, o mais recente modelo de vídeo generativo do Google DeepMind que pode criar vídeos de alta qualidade 1080P sem esforço a partir de prompts de texto, imagem e vídeo.

Durante a apresentação do Google I/O 2024 em 14 de maio, eles compartilharam as últimas atualizações do DeepMind, sua divisão de IA. Um dos avanços mais empolgantes compartilhados foi seu mais novo modelo generativo de vídeo, o Veo. O Veo pode criar vídeos em 1080P de alta qualidade com base em prompts de texto, imagem e vídeo. Ele até permite que você edite vídeos gerados com prompts subsequentes. O Veo leva a IA generativa para o próximo nível. Vamos dar uma olhada mais de perto nos recursos que o Veo oferece.
Link to this sectionCompreendendo as capacidades do Veo#
O Veo é um modelo generativo de vídeo que usa uma compreensão profunda de linguagem e recursos visuais para criar vídeos que correspondem fielmente à visão criativa do usuário. Ele consegue capturar o tom e os detalhes de prompts mais longos com precisão, tornando-se uma ferramenta poderosa para criadores que desejam transformar suas ideias em conteúdo de vídeo preciso.
O usuário pode ter um controle criativo inovador sobre o vídeo gerado, pois o Veo entende técnicas cinematográficas como "timelapse" e "tomadas aéreas de uma paisagem". Esse controle criativo possibilita que os usuários criem vídeos onde pessoas, animais e objetos se movem naturalmente. Os vídeos gerados pelo Veo são envolventes e visualmente atraentes porque é difícil identificar que foram gerados por um modelo de IA.
O Veo vai além de apenas criar vídeos a partir de prompts. Se você fornecer um vídeo gerado anteriormente e um pedido de edição específico, como inserir caiaques em uma vista aérea de uma linha costeira, o Veo pode integrar perfeitamente essa mudança ao vídeo original, produzindo uma versão atualizada.

Fig 1. Um exemplo de edição de vídeo usando o Veo.
Aqui estão alguns recursos adicionais que o Veo oferece:
- Edição com Máscaras: O Veo pode te ajudar a editar áreas definidas de um vídeo.
- Criação de Vídeo Inspirada em Imagem: Usando uma imagem e um prompt de texto, o Veo pode gerar vídeos que espelham o estilo da imagem e seguem as direções do prompt.
- Clipes de Vídeo Estendidos: O Veo pode criar e estender clipes de vídeo para 60 segundos ou mais, seja a partir de um único prompt ou de uma sequência de prompts que juntos contam uma história.
Link to this sectionVídeos impressionantes gerados pelo Veo#
Vamos analisar alguns dos vídeos que o Veo gerou e por que são tão impressionantes.
Gerar um vídeo de um timelapse a partir de um prompt de texto curto é desafiador. Normalmente, o prompt de texto curto não consegue transmitir com precisão as mudanças e movimentos dentro da cena do timelapse. Portanto, é surpreendente que o Veo consiga entender o que esperar de um timelapse sem entrar nos detalhes.

Fig 2. Um quadro do vídeo de timelapse gerado pelo Veo.
Da mesma forma, gerar vídeos com física precisa não é fácil. O modelo de IA precisa entender e simular leis da física como gravidade, momento e colisões para fazer com que os movimentos e interações pareçam realistas. É impressionante que o Veo consiga modelar esses dinâmicos com precisão sem orientação detalhada de prompts de texto.

Fig 3. Um quadro de um vídeo gerado usando o Veo captura com precisão a física do movimento de águas-vivas.
Até agora, tínhamos visto apenas vídeos mais curtos gerados por IA devido a limitações computacionais e à complexidade de manter a coerência ao longo de sequências mais longas. Na apresentação do Google I/O 2024, foi mostrada a capacidade surpreendente do Veo de criar vídeos mais longos e intrincados.

Fig 4. Quadros do vídeo mais longo do Veo exibido na apresentação do Google I/O 2024.
Link to this sectionComo o Veo funciona?#
Como muitos outros modelos de IA, o Veo se baseia em avanços anteriores como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, além da arquitetura de Transformer proprietária do Google e Gemini. Além disso, para melhorar a capacidade do Veo de interpretar prompts com precisão, as legendas de cada vídeo em seu conjunto de dados de treinamento eram mais detalhadas.
Com base no fluxo de trabalho bruto do modelo compartilhado pelo Google, veja como o Veo funciona:
- Prompts de Entrada: Você fornece um prompt de texto e, opcionalmente, um prompt de imagem.
- Codificação: O prompt de texto é processado por um Codificador UL2, e o prompt de imagem é processado por um codificador de imagem.
- Prompt Embebido: As saídas dos codificadores de texto e imagem são combinadas para formar um único prompt embebido.
- Modelo de Difusão Latente: O prompt embebido e um vídeo comprimido com ruído são passados para este modelo que gera um vídeo comprimido usando-os. O Veo usa representações de vídeo de alta qualidade e comprimidas, conhecidas como latentes, para melhorar a eficiência enquanto mantém a qualidade.
- Decodificação: O passo final decodifica a saída de vídeo 1080p a partir do vídeo comprimido.

Fig 5. Como o Veo funciona.
Link to this sectionUm estudo de caso convincente em produção cinematográfica#
Para testar as habilidades do Veo, o Google se uniu ao cineasta Donald Glover e seu estúdio criativo, Gilga. Eles usaram o Veo para explorar várias técnicas criativas, incluindo planos de acompanhamento dinâmicos, que exigem movimento preciso e enquadramento consistente.

Fig 6. Usando o Veo no processo de filmagem.
Tradicionalmente, os cineastas enfrentam limitações devido a restrições de tempo e recursos. Com o Veo, Glover e sua equipe puderam experimentar rapidamente e gerar planos complexos, o que, por sua vez, proporcionou mais flexibilidade e inovação no processo de filmagem.
Com o Veo, Glover e sua equipe puderam experimentar rapidamente e gerar planos complexos antes da filmagem real. Por exemplo, eles puderam testar vários planos de acompanhamento dinâmicos para ver como ficariam e fazer ajustes conforme necessário. Esse processo de pré-visualização os ajudou a refinar suas ideias e garantir que as tomadas funcionassem como pretendido, reduzindo significativamente o número de tomadas necessárias durante a filmagem real. Eles conseguiram criar um estudo de caso convincente para demonstrar o potencial do Veo de mudar a indústria cinematográfica. Ele oferece uma maneira mais rápida e eficiente de dar vida a visões criativas.
Link to this sectionUsos práticos do Veo em vários setores#
As capacidades avançadas de geração de vídeo do Veo têm aplicações práticas em muitos setores. Na publicidade, ele pode produzir rapidamente comerciais personalizados e de alta qualidade para públicos-alvo, economizando tempo e custos de produção. Na educação, o Veo pode criar vídeos instrucionais envolventes, tornando conceitos complexos mais fáceis de entender.
Empresas podem usar o Veo para treinamento e comunicações corporativas. Profissionais de Saúde podem usar o Veo para simular procedimentos médicos para fins de treinamento. Em relação a eventos virtuais e conferências, o Veo pode criar simulações realistas de locais e palcos, oferecendo aos participantes uma experiência envolvente e interativa de qualquer lugar. Os organizadores se beneficiam de um alcance expandido e insights valiosos para eventos futuros. Graças ao Veo, inúmeras oportunidades se abriram.
Quando um modelo de IA tem o potencial de impactar diferentes setores, é importante ter em mente a segurança e a IA ética. Para permitir uma adoção mais ampla e garantir o uso responsável, o Google implementou várias medidas de segurança. Os vídeos criados pelo Veo são marcados com marca d'água usando o SynthID, uma ferramenta para marcar e identificar conteúdo gerado por IA. O SynthID garante transparência e ajuda a mitigar riscos de privacidade, direitos autorais e viés. Além disso, todos os vídeos gerados passam por filtros de segurança e processos de verificação de memorização. Essas salvaguardas tornam o Veo uma ferramenta valiosa e ética que apoia a produção de vídeo responsável e inovadora.
Link to this sectionComo acessar o Veo#
Nas próximas semanas, o Google começará a oferecer alguns dos recursos inovadores do Veo para criadores selecionados através do VideoFX, uma nova ferramenta disponível em labs.google. Esta iniciativa permite acesso antecipado às capacidades avançadas de geração de vídeo do Veo, dando aos criadores a oportunidade de experimentar seus recursos inovadores. A lista de espera para o Veo está aberta, convidando criadores interessados a se inscrever e usar as poderosas ferramentas do Veo em seus projetos.
Link to this sectionMais sobre as atualizações de IA generativa de 2024 do DeepMind#
Além do Veo, o DeepMind introduziu várias atualizações de ponta em IA generativa para 2024. Uma dessas atualizações é o Imagen 3, seu modelo de texto-para-imagem mais avançado até agora. O Imagen 3 se destaca na criação de imagens fotorrealistas e realistas. Ele compreende profundamente prompts de linguagem natural e captura detalhes intrincados enquanto minimiza artefatos visuais.

Fig 7. Uma imagem gerada usando o Imagen 3.
O DeepMind também desenvolveu o Lyria, seu modelo mais avançado para geração de música por IA. Como parte deste esforço, o DeepMind criou um conjunto de ferramentas de música por IA chamado Music AI Sandbox. Essas ferramentas permitem que músicos e produtores explorem novas possibilidades criativas na composição musical e transformação sonora.

Fig 8. Um exemplo de interface das ferramentas de música por IA do DeepMind.
Semelhante ao Veo, o DeepMind implementou várias medidas de segurança em relação às suas outras atualizações também. O SynthID será usado nessas atualizações como uma ferramenta para marcar e identificar conteúdo gerado por IA. Essas atualizações do DeepMind prometem transformar vários setores oferecendo ferramentas avançadas, eficientes e responsáveis para criar conteúdo visual e de áudio de alta qualidade.
Link to this sectionNavegando pela próxima fase da IA Generativa#
Os avanços em IA generativa de 2024 do DeepMind, incluindo Veo, Imagen 3 e Lyria, marcam um salto considerável nas capacidades de IA. O Veo transforma a criação de vídeo com sua capacidade de gerar vídeos 1080p de alta qualidade a partir de prompts simples, tornando-o uma ferramenta versátil para cineastas e criadores de conteúdo. O Imagen 3 brilha na produção de imagens fotorrealistas, enquanto o Lyria introduz novas possibilidades na geração de música com ferramentas avançadas de IA.
Essas tecnologias prometem transformar vários setores, fornecendo ferramentas eficientes e responsáveis para criar conteúdo visual e de áudio de alta qualidade. Com medidas de segurança como o SynthID garantindo o uso ético, o DeepMind continua expandindo os limites da IA, pavimentando o caminho para aplicações inovadoras no futuro.
Mergulhe na IA visitando nosso repositório GitHub e participando da nossa comunidade. Explore nossas páginas de soluções para aprender como a IA é aplicada na manufatura e na agricultura.






