Meta Movie Gen: Criação de Vídeos com IA

Seja você um aspirante a cineasta ou um criador de conteúdo que gosta de fazer vídeos para seu público, ter ferramentas de IA que expandam sua criatividade é sempre útil. Recentemente, a Meta lançou seu modelo de vídeo generativo mais recente, conhecido como Meta Movie Gen.

O mercado global de IA generativa em mídia e entretenimento está projetado para atingir US$ 11,57 bilhões até 2033, com empresas como Runway, OpenAI e Meta liderando o caminho em inovações inovadoras. O Meta Movie Gen, em particular, é ótimo para aplicações como produção de filmes, criação de conteúdo de vídeo e narrativa digital, tornando mais fácil do que nunca dar vida a visões criativas por meio de vídeos de alta qualidade gerados por IA. Neste artigo, exploraremos o Meta Movie Gen e como ele funciona. Também veremos mais de perto algumas de suas aplicações. Vamos começar!

__wf_reserved_inherit — Fig 1. Um frame de um videoclipe gerado usando o Meta Movie Gen.

‍

O que é Meta Movie Gen?

Antes de discutirmos o que é o Meta Movie Gen, vamos dar uma olhada em como ele surgiu.

Os esforços de pesquisa da Meta relacionados à IA generativa começaram com sua série de modelos Make-A-Scene. Esta pesquisa se concentra em um método de IA generativa multimodal que ajuda artistas e visionários a dar vida à sua imaginação. Os artistas podem inserir imagens, áudio, vídeos ou animações 3D para obter a saída de imagem que desejam. O próximo salto na inovação veio com modelos de difusão como os modelos Llama Image Foundation (Emu), que tornaram possível gerar imagens e vídeos de qualidade muito superior e permitiram a edição de imagens.

‍

O Movie Gen é a mais recente contribuição da Meta para a pesquisa de IA generativa. Ele combina todas as modalidades mencionadas anteriormente e permite um controle mais refinado para que as pessoas possam usar os modelos de maneiras mais criativas. O Meta Movie Gen é uma coleção de modelos fundamentais para gerar diferentes tipos de mídia, incluindo texto para vídeo, texto para áudio e texto para imagem. Ele consiste em quatro modelos, que são treinados em uma combinação de conjuntos de dados licenciados e disponíveis publicamente.

Aqui está uma visão geral rápida desses modelos:

Modelo de vídeo Movie Gen: Um modelo de 30 bilhões de parâmetros que gera vídeos de alta qualidade a partir de prompts de texto.
‍
Modelo de áudio Movie Gen: Um modelo de 13 bilhões de parâmetros que pode criar trilhas sonoras que sincronizam com o conteúdo do vídeo.
‍
Modelo de vídeo de geração de filmes personalizados: Ele gera vídeos de indivíduos específicos com base em um prompt de texto e uma única imagem, retendo sua semelhança.
‍
Modelo Movie Gen Edit: O modelo permite edições de vídeo detalhadas, baseadas em texto, para vídeos reais e fictícios.

Treinando o modelo de vídeo Meta Movie Gen

Vários processos-chave estiveram envolvidos na criação e no treinamento do modelo Movie Gen Video. A primeira etapa envolveu a coleta e o preparo de dados visuais, incluindo imagens e videoclipes, principalmente de atividades humanas filtradas por qualidade, movimento e relevância. Os dados foram então emparelhados com legendas de texto que explicavam o que estava acontecendo em cada cena. As legendas, geradas usando o modelo LLaMa3 da Meta-Video, forneceram detalhes ricos sobre o conteúdo de cada cena, aprimorando as capacidades de narrativa visual do modelo.

‍

O processo de treinamento começou com o modelo aprendendo a transformar texto em imagens de baixa resolução. Em seguida, progrediu para a criação de videoclipes completos por meio de uma combinação de treinamento de texto para imagem e texto para vídeo, usando visuais de qualidade cada vez maior.

Uma ferramenta chamada Autoencoder Temporal (TAE) comprimiu os vídeos para gerenciar grandes volumes de dados de forma eficiente. O Ajuste fino aprimorou ainda mais a qualidade do vídeo, e um método chamado média de modelos (que combina várias saídas de modelos para resultados mais suaves e consistentes) garantiu maior consistência de saída. Finalmente, o vídeo, inicialmente em 768p, foi ampliado para uma resolução nítida de 1080p usando uma técnica de upsampler espacial, que aumenta a resolução da imagem adicionando dados de pixels para visuais mais nítidos. O resultado foram saídas de vídeo detalhadas e de alta qualidade.

Explorando os recursos do Meta Movie Gen

Os modelos Meta Movie Gen suportam principalmente quatro habilidades diferentes. Vamos dar uma olhada mais de perto em cada uma delas.

Geração de vídeo e áudio

O Meta Movie Gen pode gerar vídeos de alta qualidade. Esses videoclipes podem ter até 16 segundos de duração e rodar a 16 fps (quadros por segundo), criando visuais realistas que capturam movimento, interações e ângulos de câmera a partir de prompts de texto. Emparelhado com o modelo de áudio de 13 bilhões de parâmetros, ele pode produzir áudio sincronizado, incluindo sons ambientes, efeitos Foley e música, para corresponder aos visuais.

Esta configuração garante uma experiência perfeita e realista, onde tanto os visuais quanto o áudio permanecem alinhados e realistas em várias cenas e prompts. Por exemplo, esses modelos foram usados para criar videoclipes do hipopótamo-pigmeu viral da Tailândia, chamado Moo Deng.

‍

Geração de vídeo personalizada

Outra capacidade interessante do modelo Meta Movie Gen é a geração de vídeos personalizados. Os usuários podem fornecer a imagem de uma pessoa e um prompt de texto descrevendo como o videoclipe deve ser gerado, resultando em um vídeo que inclui a pessoa de referência e incorpora os ricos detalhes visuais especificados no prompt de texto. O modelo usa ambas as entradas (imagem e texto) para manter a aparência única da pessoa e os movimentos corporais naturais, enquanto segue com precisão a cena descrita no prompt.

‍

Edição de vídeo precisa

Usando o modelo Movie Gen Edit, os usuários podem fornecer um videoclipe e um prompt de texto como entrada para editar o vídeo de maneiras criativas. O modelo combina a geração de vídeo com edição de imagem avançada para realizar edições muito específicas, como adicionar, remover ou substituir elementos. Ele também pode realizar alterações globais, como modificar o fundo do videoclipe ou o estilo geral. Mas o que torna o modelo verdadeiramente único é sua precisão: ele pode segmentar apenas os pixels específicos que exigem edição e deixar o restante intocado. Isso preserva o conteúdo original o máximo possível.

‍

Ferramentas de benchmarking do Meta Movie Gen

Juntamente com os modelos de IA generativa, a Meta também introduziu o Movie Gen Bench, um conjunto de ferramentas de benchmarking para testar o desempenho de modelos de IA generativa. Ele vem com duas ferramentas principais: Movie Gen Video Bench e Movie Gen Audio Bench. Ambos são projetados para testar diferentes aspectos da geração de vídeo e áudio.

Aqui está um vislumbre de ambas as ferramentas:

Movie Gen Video Bench: Consiste em 1003 prompts que abrangem uma ampla variedade de categorias de teste, como atividades humanas, animais, paisagens naturais, física, bem como assuntos e atividades incomuns. O que torna este benchmark de avaliação especialmente valioso é sua cobertura de níveis de movimento, o que garante que o modelo de geração de vídeo seja testado para sequências rápidas e mais lentas.
‍
Movie Gen Audio Bench: Ele é projetado para testar as capacidades de geração de áudio em 527 prompts. Esses prompts são combinados com vídeos gerados para avaliar o quão bem o modelo consegue sincronizar efeitos sonoros e música com o conteúdo visual.

‍

Uma aplicação prática do Meta Movie Gen

Agora que abordamos o que são os modelos Meta Movie Gen e como eles funcionam, vamos explorar uma de suas aplicações práticas.

Inovações de IA generativa de filmes na produção cinematográfica

Um dos usos mais interessantes do Movie Gen do Meta é como ele pode transformar a produção de filmes por meio da criação de vídeo e áudio com tecnologia de IA. Com o Movie Gen, os criadores podem gerar visuais e sons de alta qualidade a partir de simples comandos de texto, abrindo novas maneiras de contar histórias.

De fato, a Meta se uniu à Blumhouse e a um grupo de cineastas, reunindo seus feedbacks sobre como o Movie Gen pode melhor apoiar o processo criativo. Cineastas como Aneesh Chaganty, as Spurlock Sisters e Casey Affleck testaram a capacidade da ferramenta de capturar humor, tom e direção visual. Eles descobriram que os modelos ajudaram a gerar novas ideias.

Este programa piloto mostrou que, embora o Movie Gen não substitua a produção cinematográfica tradicional, ele oferece aos diretores uma nova maneira de experimentar elementos visuais e de áudio de forma rápida e criativa. Os cineastas também apreciaram como os recursos de edição da ferramenta permitiram que eles brincassem mais livremente com sons de fundo, efeitos e estilos visuais.

‍

Principais conclusões

O Meta Movie Gen é um passo à frente no uso de IA generativa para criar vídeos e sons de alta qualidade a partir de descrições de texto simples. A ferramenta ajuda os usuários a criar vídeos realistas e personalizados facilmente. Com recursos como edição de vídeo precisa e geração de mídia personalizada, o Meta Movie Gen oferece um conjunto de ferramentas flexível que abre novas possibilidades para contar histórias, fazer filmes e muito mais. Ao facilitar a criação de visuais detalhados e úteis, o Meta Movie Gen está transformando a forma como os vídeos são feitos e usados em diferentes campos e estabelecendo um novo padrão para a criação de conteúdo orientado por IA.

Para saber mais, visite nosso repositório no GitHub e interaja com a nossa comunidade. Explore aplicações de IA em carros autônomos e na agricultura em nossas páginas de soluções. 🚀

Meta Movie Gen: Reimaginando a criação de conteúdo

O que é Meta Movie Gen?

Treinando o modelo de vídeo Meta Movie Gen