Saiba mais sobre o Veo, o mais recente modelo de vídeo generativo do Google DeepMind que pode criar sem esforço vídeos 1080P de alta qualidade a partir de prompts de texto, imagem e vídeo.

Saiba mais sobre o Veo, o mais recente modelo de vídeo generativo do Google DeepMind que pode criar sem esforço vídeos 1080P de alta qualidade a partir de prompts de texto, imagem e vídeo.
Durante a apresentação do Google I/O 2024 em 14 de maio, eles compartilharam as últimas atualizações do DeepMind, sua divisão de IA. Um dos avanços mais empolgantes compartilhados foi seu mais novo modelo de vídeo generativo, o Veo. O Veo pode criar vídeos de alta qualidade em 1080P com base em prompts de texto, imagem e vídeo. Ele ainda permite que você edite vídeos gerados com prompts subsequentes. O Veo leva a IA generativa para o próximo nível. Vamos dar uma olhada mais de perto nos recursos que o Veo oferece.
Veo é um modelo generativo de vídeo que utiliza um profundo conhecimento de linguagem e visuais para criar vídeos que correspondem de perto à visão criativa de um usuário. Ele consegue capturar o tom e os detalhes de prompts mais longos com precisão, tornando-o uma ferramenta poderosa para criadores que desejam transformar suas ideias em conteúdo de vídeo preciso.
O usuário pode ter um controle criativo inovador sobre o vídeo gerado, porque o Veo consegue entender técnicas de filmagem como "timelapse" e "imagens aéreas de uma paisagem". Esse controle criativo possibilita que os usuários criem vídeos onde pessoas, animais e objetos se movem naturalmente. Os vídeos gerados pelo Veo são envolventes e visualmente atraentes porque é difícil identificar que foram gerados por um modelo de IA.
O Veo vai além da simples criação de vídeos a partir de prompts. Se você fornecer um vídeo gerado anteriormente e uma solicitação de edição específica, como inserir caiaques em uma vista aérea de uma costa, o Veo pode integrar perfeitamente essa alteração no vídeo original, produzindo uma versão atualizada.
Aqui estão alguns recursos adicionais que o Veo oferece:
Vamos percorrer alguns dos vídeos que a Veo gerou e por que eles são tão impressionantes.
Gerar um vídeo de um timelapse a partir de um prompt de texto curto é desafiador. Normalmente, o prompt de texto curto não consegue transmitir com precisão as mudanças e movimentos dentro da cena do timelapse. Portanto, é surpreendente que o Veo possa entender o que esperar de um timelapse sem entrar em detalhes.
Da mesma forma, gerar vídeos com física precisa não é fácil. O modelo de IA precisa entender e simular leis da física, como gravidade, momento e colisões, para fazer com que os movimentos e as interações pareçam realistas. É impressionante que o Veo seja capaz de modelar com precisão essas dinâmicas sem orientação detalhada de prompts de texto.
Até agora, só vimos vídeos mais curtos gerados por IA devido a limitações computacionais e à complexidade de manter a coerência em sequências mais longas. Na apresentação I/O 2024 do Google, foi demonstrada a incrível capacidade do Veo de criar vídeos mais longos e complexos.
Como muitos outros modelos de IA, o Veo se apoia nos ombros de gigantes. Ele se baseia em avanços anteriores, como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, bem como na arquitetura Transformer proprietária do Google e no Gemini. Além disso, para melhorar a capacidade do Veo de interpretar prompts com precisão, as legendas de cada vídeo em seu conjunto de dados de treinamento foram mais detalhadas.
Com base no fluxo de trabalho do modelo compartilhado pelo Google, veja como o Veo funciona:
Para testar as capacidades da Veo, a Google juntou-se ao cineasta Donald Glover e ao seu estúdio criativo, Gilga. Eles usaram a Veo para explorar várias técnicas criativas, incluindo tomadas de rastreamento dinâmicas, que exigem um movimento preciso e um enquadramento consistente.
Tradicionalmente, os cineastas enfrentam limitações devido a restrições de tempo e recursos. Com o Veo, Glover e sua equipe puderam experimentar e gerar rapidamente tomadas complexas, o que, por sua vez, proporcionou mais flexibilidade e inovação no processo de filmagem.
Com o Veo, Glover e sua equipe puderam experimentar e gerar rapidamente tomadas complexas antes da filmagem real. Por exemplo, eles podiam testar várias tomadas de rastreamento dinâmico para ver como ficariam e fazer ajustes conforme necessário. Esse processo de pré-visualização ajudou-os a refinar suas ideias e garantir que as tomadas funcionassem como pretendido, reduzindo, em última análise, o número de tomadas necessárias durante a filmagem real. Eles conseguiram criar um estudo de caso convincente para demonstrar o potencial do Veo para mudar a indústria cinematográfica. Ele oferece uma maneira mais rápida e eficiente de dar vida a visões criativas.
As capacidades avançadas de geração de vídeo do Veo têm aplicações práticas em diversos setores. Em publicidade, ele pode produzir rapidamente comerciais personalizados e de alta qualidade para públicos-alvo, economizando tempo e custos de produção. Na educação, o Veo pode criar vídeos instrucionais envolventes, tornando conceitos complexos mais fáceis de entender.
Empresas podem usar o Veo para treinamento e comunicações corporativas. Profissionais de saúde podem usar o Veo para simular procedimentos médicos para fins de treinamento. Em relação a eventos e conferências virtuais, o Veo pode criar simulações realistas de locais e palcos, oferecendo aos participantes uma experiência envolvente e interativa de qualquer lugar. Os organizadores se beneficiam com o alcance expandido e insights valiosos para eventos futuros. Graças ao Veo, inúmeras oportunidades se abriram.
Quando um modelo de IA tem o potencial de impactar diferentes setores, é importante ter em mente a segurança e a ética da IA. Para permitir uma adoção mais ampla e garantir um uso responsável, a Google implementou várias medidas de segurança. Os vídeos criados pelo Veo são marcados com SynthID, uma ferramenta para marcar e identificar conteúdo gerado por IA. O SynthId garante a transparência e ajuda a mitigar os riscos de privacidade, direitos de autor e viés. Além disso, todos os vídeos gerados passam por filtros de segurança e processos de verificação de memorização. Estas salvaguardas tornam o Veo uma ferramenta valiosa e ética que apoia a produção de vídeo responsável e inovadora.
Nas próximas semanas, o Google começará a oferecer alguns dos recursos inovadores do Veo para criadores selecionados por meio do VideoFX, uma nova ferramenta disponível no labs.google. Essa iniciativa permite o acesso antecipado aos recursos avançados de geração de vídeo do Veo, dando aos criadores a oportunidade de experimentar seus recursos inovadores. A lista de espera para o Veo está atualmente aberta, convidando os criadores interessados a se inscrever e usar as ferramentas poderosas do Veo em seus projetos.
Além do Veo, a DeepMind introduziu várias atualizações de ponta em IA generativa para 2024. Uma dessas atualizações é o Imagen 3, o seu modelo de texto para imagem mais avançado até agora. O Imagen 3 destaca-se na criação de imagens fotorrealistas e realistas. Ele entende os prompts de linguagem natural profundamente e captura detalhes intrincados, minimizando artefatos visuais.
A DeepMind também desenvolveu o Lyria, seu modelo mais avançado para geração de música por IA. Como parte desse esforço, a DeepMind criou um conjunto de ferramentas de IA musical chamado Music AI Sandbox. Essas ferramentas permitem que músicos e produtores explorem novas possibilidades criativas na composição musical e na transformação de som.
Semelhante ao Veo, a DeepMind também implementou várias medidas de segurança em relação às suas outras atualizações. O SynthID será usado nessas atualizações como uma ferramenta para marca d'água e identificação de conteúdo gerado por IA. Essas atualizações da DeepMind prometem transformar vários setores, oferecendo ferramentas avançadas, eficientes e responsáveis para criar conteúdo visual e de áudio de alta qualidade.
Os avanços da DeepMind em IA generativa em 2024, incluindo Veo, Imagen 3 e Lyria, marcam um salto considerável nas capacidades de IA. O Veo transforma a criação de vídeo com sua capacidade de gerar vídeos de alta qualidade em 1080p a partir de prompts simples, tornando-o uma ferramenta versátil para cineastas e criadores de conteúdo. O Imagen 3 se destaca na produção de imagens fotorrealistas, enquanto o Lyria introduz novas possibilidades na geração de música com ferramentas avançadas de IA.
Essas tecnologias prometem transformar vários setores, fornecendo ferramentas eficientes e responsáveis para criar conteúdo visual e de áudio de alta qualidade. Com medidas de segurança como o SynthID, garantindo o uso ético, o DeepMind continua a expandir os limites da IA, abrindo caminho para aplicações inovadoras no futuro.
Mergulhe na IA visitando nosso repositório GitHub e juntando-se à nossa comunidade. Explore nossas páginas de soluções para saber como a IA é aplicada na manufatura e na agricultura.