Saiba mais sobre o Veo, o mais recente modelo de vídeo generativo do Google DeepMind, que pode criar facilmente vídeos 1080P de alta qualidade a partir de instruções de texto, imagem e vídeo.

Saiba mais sobre o Veo, o mais recente modelo de vídeo generativo do Google DeepMind, que pode criar facilmente vídeos 1080P de alta qualidade a partir de instruções de texto, imagem e vídeo.
Durante a apresentação I/O 2024 da Google, a 14 de maio, foram partilhadas as últimas actualizações da DeepMind, a sua divisão de IA. Um dos avanços mais interessantes partilhados foi o seu mais recente modelo de vídeo generativo, Veo. O Veo pode criar vídeos 1080P de alta qualidade com base em instruções de texto, imagem e vídeo. Até permite editar os vídeos gerados com instruções subsequentes. O Veo leva a IA generativa para o próximo nível. Vamos ver mais de perto as funcionalidades que o Veo oferece.
O Veo é um modelo de vídeo generativo que utiliza uma compreensão profunda da linguagem e dos elementos visuais para criar vídeos que se aproximam da visão criativa de um utilizador. Consegue captar com precisão o tom e os detalhes de pedidos mais longos, o que o torna uma ferramenta poderosa para os criadores que pretendem transformar as suas ideias em conteúdos de vídeo precisos.
O utilizador pode ter um controlo criativo inovador sobre o vídeo gerado, porque o Veo consegue compreender técnicas cinematográficas como "timelapse" e "planos aéreos de uma paisagem". Este controlo criativo permite aos utilizadores criar vídeos em que pessoas, animais e objectos se movem naturalmente. Os vídeos gerados pelo Veo são envolventes e visualmente atractivos porque é difícil perceber que são gerados por um modelo de IA.
A Veo vai além da mera criação de vídeos a partir de prompts. Se fornecer um vídeo gerado anteriormente e um pedido de edição específico, como a inserção de caiaques numa vista aérea de uma linha costeira, a Veo pode integrar perfeitamente esta alteração no vídeo original, produzindo uma versão actualizada.
Eis mais algumas caraterísticas que o Veo oferece:
Vejamos alguns dos vídeos que a Veo produziu e porque é que é tão impressionante.
Gerar um vídeo de um lapso de tempo a partir de um texto curto é um desafio. Normalmente, o texto curto não consegue transmitir com exatidão as mudanças e os movimentos dentro da cena do lapso de tempo. Por isso, é espantoso que o Veo consiga perceber o que esperar de um lapso de tempo sem entrar em pormenores.
Do mesmo modo, gerar vídeos com física exacta não é fácil. O modelo de IA tem de compreender e simular as leis da física, como a gravidade, o impulso e as colisões, para que os movimentos e as interações pareçam realistas. É impressionante o facto de o Veo ser capaz de modelar com precisão estas dinâmicas sem uma orientação pormenorizada de instruções de texto.
Até agora, só vimos vídeos mais curtos gerados por IA devido a limitações computacionais e à complexidade de manter a coerência em sequências mais longas. Na apresentação do Google I/O 2024, foi mostrada a capacidade alucinante do Veo para criar vídeos mais longos e mais complexos.
Tal como muitos outros modelos de IA, o Veo assenta em ombros de gigantes. Baseia-se em avanços anteriores, como a Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, bem como na arquitetura Transformer e Gemini, propriedade da Google. Além disso, para melhorar a capacidade do Veo para interpretar os avisos com precisão, as legendas de cada vídeo no seu conjunto de dados de treino eram mais detalhadas.
Com base no modelo aproximado de fluxo de trabalho partilhado pela Google, eis como funciona o Veo:
Para testar as capacidades do Veo, a Google juntou-se ao realizador Donald Glover e ao seu estúdio criativo, Gilga. Utilizaram o Veo para explorar várias técnicas criativas, incluindo planos de seguimento dinâmicos, que requerem movimentos precisos e enquadramentos consistentes.
Tradicionalmente, os realizadores enfrentam limitações devido a restrições de tempo e recursos. Com o Veo, Glover e a sua equipa puderam experimentar e gerar rapidamente planos complexos, o que, por sua vez, proporcionou mais flexibilidade e inovação no processo de realização do filme.
Com o Veo, Glover e a sua equipa puderam experimentar e gerar rapidamente planos complexos antes da filmagem propriamente dita. Por exemplo, podiam testar vários planos de seguimento dinâmico para ver como ficariam e fazer os ajustes necessários. Este processo de pré-visualização ajudou-os a refinar as suas ideias e a garantir que os planos funcionariam como pretendido, reduzindo assim o número de planos necessários durante as filmagens. Conseguiram criar um estudo de caso convincente para demonstrar o potencial do Veo para mudar a indústria cinematográfica. O Veo oferece uma forma mais rápida e eficiente de dar vida a visões criativas.
As capacidades avançadas de geração de vídeo da Veo têm aplicações práticas em muitos sectores. Na publicidade, pode produzir rapidamente anúncios personalizados e de alta qualidade para públicos-alvo, poupando tempo e custos de produção. No sector da educação, a Veo pode criar vídeos de instrução cativantes, facilitando a compreensão de conceitos complexos.
As empresas podem utilizar o Veo para formação e comunicações empresariais. Os profissionais de saúde podem utilizar a Veo para simular procedimentos médicos para fins de formação. No que diz respeito a eventos e conferências virtuais, a Veo pode criar simulações reais de locais e palcos, oferecendo aos participantes uma experiência envolvente e interactiva a partir de qualquer lugar. Os organizadores beneficiam de um maior alcance e de informações valiosas para eventos futuros. Graças à Veo, abriram-se inúmeras oportunidades.
Quando um modelo de IA tem o potencial de afetar diferentes sectores, é importante ter em conta a segurança e a ética da IA. Para permitir uma adoção mais ampla e garantir uma utilização responsável, a Google implementou várias medidas de segurança. Os vídeos criados pela Veo são marcados com uma marca de água utilizando o SynthID, uma ferramenta para marcar e identificar conteúdos gerados por IA. O SynthId garante a transparência e ajuda a mitigar os riscos de privacidade, direitos de autor e preconceitos. Para além disso, todos os vídeos gerados passam por filtros de segurança e processos de verificação de memorização. Estas salvaguardas fazem do Veo uma ferramenta valiosa e ética que apoia a produção de vídeo responsável e inovadora.
Nas próximas semanas, a Google começará a oferecer algumas das funcionalidades inovadoras do Veo a criadores selecionados através do VideoFX, uma nova ferramenta disponível em labs.google. Esta iniciativa permite o acesso antecipado às capacidades avançadas de geração de vídeo do Veo, dando aos criadores a oportunidade de experimentarem as suas funcionalidades inovadoras. A lista de espera para o Veo está atualmente aberta, convidando os criadores interessados a inscreverem-se e a utilizarem as poderosas ferramentas do Veo nos seus projectos.
Para além do Veo, a DeepMind introduziu várias actualizações de ponta em IA generativa para 2024. Uma dessas actualizações é o Imagen 3, o seu modelo de texto para imagem mais avançado até à data. O Imagen 3 é excelente na criação de imagens fotorrealistas e realistas. Compreende profundamente as solicitações de linguagem natural e capta detalhes intrincados, minimizando os artefactos visuais.
A DeepMind também desenvolveu o Lyria, o seu modelo mais avançado de geração de música por IA. Como parte deste esforço, a DeepMind criou um conjunto de ferramentas de IA musical denominado Music AI Sandbox. Estas ferramentas permitem aos músicos e produtores explorar novas possibilidades criativas no domínio da composição musical e da transformação sonora.
À semelhança do Veo, a DeepMind também implementou várias medidas de segurança relativamente às suas outras actualizações. O SynthID será utilizado em todas estas actualizações como uma ferramenta de marca de água e de identificação de conteúdos gerados por IA. Estas actualizações da DeepMind prometem transformar várias indústrias, oferecendo ferramentas avançadas, eficientes e responsáveis para a criação de conteúdos visuais e áudio de alta qualidade.
Os avanços da IA generativa da DeepMind em 2024, incluindo Veo, Imagen 3 e Lyria, marcam um salto considerável nas capacidades de IA. O Veo transforma a criação de vídeos com sua capacidade de gerar vídeos de alta qualidade em 1080p a partir de comandos simples, tornando-o uma ferramenta versátil para cineastas e criadores de conteúdo. O Imagen 3 brilha na produção de imagens fotorrealistas, enquanto o Lyria introduz novas possibilidades na criação de música com ferramentas de IA avançadas.
Estas tecnologias prometem transformar vários sectores, fornecendo ferramentas eficientes e responsáveis para a criação de conteúdos visuais e áudio de alta qualidade. Com medidas de segurança como o SynthID a garantir uma utilização ética, a DeepMind continua a expandir as fronteiras da IA, abrindo caminho para aplicações inovadoras no futuro.
Mergulhe na IA visitando o nosso repositório GitHub e juntando-se à nossa comunidade. Explore as nossas páginas de soluções para saber como a IA é aplicada no fabrico e na agricultura.