Saiba mais sobre o Veo, o mais recente modelo de vídeo generativo do Google DeepMind, que pode criar facilmente vídeos 1080P de alta qualidade a partir de instruções de texto, imagem e vídeo.

Saiba mais sobre o Veo, o mais recente modelo de vídeo generativo do Google DeepMind, que pode criar facilmente vídeos 1080P de alta qualidade a partir de instruções de texto, imagem e vídeo.

Durante a apresentação I/O 2024 daGoogle, a 14 de maio, foram partilhadas as últimas actualizações da DeepMind, a sua divisão de IA. Um dos avanços mais interessantes partilhados foi o seu mais recente modelo de vídeo generativo, Veo. O Veo pode criar vídeos 1080P de alta qualidade com base em instruções de texto, imagem e vídeo. Até permite editar os vídeos gerados com instruções subsequentes. O Veo leva a IA generativa para o próximo nível. Vamos ver mais de perto as funcionalidades que o Veo oferece.
Veo é um modelo generativo de vídeo que utiliza um profundo conhecimento de linguagem e visuais para criar vídeos que correspondem de perto à visão criativa de um usuário. Ele consegue capturar o tom e os detalhes de prompts mais longos com precisão, tornando-o uma ferramenta poderosa para criadores que desejam transformar suas ideias em conteúdo de vídeo preciso.
O usuário pode ter um controle criativo inovador sobre o vídeo gerado, porque o Veo consegue entender técnicas de filmagem como "timelapse" e "imagens aéreas de uma paisagem". Esse controle criativo possibilita que os usuários criem vídeos onde pessoas, animais e objetos se movem naturalmente. Os vídeos gerados pelo Veo são envolventes e visualmente atraentes porque é difícil identificar que foram gerados por um modelo de IA.
O Veo vai além da simples criação de vídeos a partir de prompts. Se você fornecer um vídeo gerado anteriormente e uma solicitação de edição específica, como inserir caiaques em uma vista aérea de uma costa, o Veo pode integrar perfeitamente essa alteração no vídeo original, produzindo uma versão atualizada.
.webp)
Aqui estão alguns recursos adicionais que o Veo oferece:
Vamos percorrer alguns dos vídeos que a Veo gerou e por que eles são tão impressionantes.
Gerar um vídeo de um timelapse a partir de um prompt de texto curto é desafiador. Normalmente, o prompt de texto curto não consegue transmitir com precisão as mudanças e movimentos dentro da cena do timelapse. Portanto, é surpreendente que o Veo possa entender o que esperar de um timelapse sem entrar em detalhes.
.webp)
Da mesma forma, gerar vídeos com física precisa não é fácil. O modelo de IA precisa entender e simular leis da física, como gravidade, momento e colisões, para fazer com que os movimentos e as interações pareçam realistas. É impressionante que o Veo seja capaz de modelar com precisão essas dinâmicas sem orientação detalhada de prompts de texto.
.webp)
Até agora, só vimos vídeos mais curtos gerados por IA devido a limitações computacionais e à complexidade de manter a coerência em sequências mais longas. Na apresentação do GoogleI/O 2024, foi mostrada a capacidade alucinante do Veo para criar vídeos mais longos e mais complexos.

Tal como muitos outros modelos de IA, o Veo assenta em ombros de gigantes. Baseia-se em avanços anteriores, como a Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere, bem como na arquitetura Transformer e Gemini, propriedade da Google. Além disso, para melhorar a capacidade do Veo para interpretar os avisos com precisão, as legendas de cada vídeo no seu conjunto de dados de treino eram mais detalhadas.
Com base no modelo aproximado de fluxo de trabalho partilhado pela Google, eis como funciona o Veo:

Para testar as capacidades do Veo, Google juntou-se ao realizador Donald Glover e ao seu estúdio criativo, Gilga. Utilizaram o Veo para explorar várias técnicas criativas, incluindo planos de seguimento dinâmicos, que requerem movimentos precisos e enquadramentos consistentes.
.webp)
Tradicionalmente, os cineastas enfrentam limitações devido a restrições de tempo e recursos. Com o Veo, Glover e sua equipe puderam experimentar e gerar rapidamente tomadas complexas, o que, por sua vez, proporcionou mais flexibilidade e inovação no processo de filmagem.
Com o Veo, Glover e sua equipe puderam experimentar e gerar rapidamente tomadas complexas antes da filmagem real. Por exemplo, eles podiam testar várias tomadas de rastreamento dinâmico para ver como ficariam e fazer ajustes conforme necessário. Esse processo de pré-visualização ajudou-os a refinar suas ideias e garantir que as tomadas funcionassem como pretendido, reduzindo, em última análise, o número de tomadas necessárias durante a filmagem real. Eles conseguiram criar um estudo de caso convincente para demonstrar o potencial do Veo para mudar a indústria cinematográfica. Ele oferece uma maneira mais rápida e eficiente de dar vida a visões criativas.
As capacidades avançadas de geração de vídeo do Veo têm aplicações práticas em diversos setores. Em publicidade, ele pode produzir rapidamente comerciais personalizados e de alta qualidade para públicos-alvo, economizando tempo e custos de produção. Na educação, o Veo pode criar vídeos instrucionais envolventes, tornando conceitos complexos mais fáceis de entender.
Empresas podem usar o Veo para treinamento e comunicações corporativas. Profissionais de saúde podem usar o Veo para simular procedimentos médicos para fins de treinamento. Em relação a eventos e conferências virtuais, o Veo pode criar simulações realistas de locais e palcos, oferecendo aos participantes uma experiência envolvente e interativa de qualquer lugar. Os organizadores se beneficiam com o alcance expandido e insights valiosos para eventos futuros. Graças ao Veo, inúmeras oportunidades se abriram.
Quando um modelo de IA tem o potencial de afetar diferentes sectores, é importante ter em conta a segurança e a ética da IA. Para permitir uma adoção mais ampla e garantir uma utilização responsável, Google implementou várias medidas de segurança. Os vídeos criados pela Veo são marcados com uma marca de água utilizando o SynthID, uma ferramenta para marcar e identificar conteúdos gerados por IA. O SynthId garante a transparência e ajuda a mitigar os riscos de privacidade, direitos de autor e preconceitos. Para além disso, todos os vídeos gerados passam por filtros de segurança e processos de verificação de memorização. Estas salvaguardas fazem do Veo uma ferramenta valiosa e ética que apoia a produção de vídeo responsável e inovadora.
Nas próximas semanas, Google começará a oferecer algumas das funcionalidades inovadoras do Veo a criadores selecionados através do VideoFX, uma nova ferramenta disponível em labsgoogle. Esta iniciativa permite o acesso antecipado às capacidades avançadas de geração de vídeo do Veo, dando aos criadores a oportunidade de experimentarem as suas funcionalidades inovadoras. A lista de espera para o Veo está atualmente aberta, convidando os criadores interessados a inscreverem-se e a utilizarem as poderosas ferramentas do Veo nos seus projectos.
Além do Veo, a DeepMind introduziu várias atualizações de ponta em IA generativa para 2024. Uma dessas atualizações é o Imagen 3, o seu modelo de texto para imagem mais avançado até agora. O Imagen 3 destaca-se na criação de imagens fotorrealistas e realistas. Ele entende os prompts de linguagem natural profundamente e captura detalhes intrincados, minimizando artefatos visuais.
.webp)
A DeepMind também desenvolveu o Lyria, seu modelo mais avançado para geração de música por IA. Como parte desse esforço, a DeepMind criou um conjunto de ferramentas de IA musical chamado Music AI Sandbox. Essas ferramentas permitem que músicos e produtores explorem novas possibilidades criativas na composição musical e na transformação de som.
.webp)
Semelhante ao Veo, a DeepMind também implementou várias medidas de segurança em relação às suas outras atualizações. O SynthID será usado nessas atualizações como uma ferramenta para marca d'água e identificação de conteúdo gerado por IA. Essas atualizações da DeepMind prometem transformar vários setores, oferecendo ferramentas avançadas, eficientes e responsáveis para criar conteúdo visual e de áudio de alta qualidade.
Os avanços da DeepMind em IA generativa em 2024, incluindo Veo, Imagen 3 e Lyria, marcam um salto considerável nas capacidades de IA. O Veo transforma a criação de vídeo com sua capacidade de gerar vídeos de alta qualidade em 1080p a partir de prompts simples, tornando-o uma ferramenta versátil para cineastas e criadores de conteúdo. O Imagen 3 se destaca na produção de imagens fotorrealistas, enquanto o Lyria introduz novas possibilidades na geração de música com ferramentas avançadas de IA.
Essas tecnologias prometem transformar vários setores, fornecendo ferramentas eficientes e responsáveis para criar conteúdo visual e de áudio de alta qualidade. Com medidas de segurança como o SynthID, garantindo o uso ético, o DeepMind continua a expandir os limites da IA, abrindo caminho para aplicações inovadoras no futuro.
Mergulhe na IA visitando nosso repositório GitHub e juntando-se à nossa comunidade. Explore nossas páginas de soluções para saber como a IA é aplicada na manufatura e na agricultura.