Meta Movie Gen: Reimaginando a criação de conteúdos
Vê como o Meta Movie Gen está a redefinir a criação de vídeo e som. Aprende como este modelo oferece edição de vídeo precisa e suporta a criação de media personalizada.

Seja você um aspirante a cineasta ou um criador de conteúdo que gosta de produzir vídeos para o seu público, ter ferramentas de IA que expandem sua criatividade é sempre útil. Recentemente, a Meta lançou seu mais recente modelo generativo de vídeo, conhecido como Meta Movie Gen.
Projeta-se que o mercado global de IA generativa em mídia e entretenimento alcance US$ 11,57 bilhões até 2033, com empresas como Runway, OpenAI e Meta liderando o caminho em inovações revolucionárias. O Meta Movie Gen, em particular, é ótimo para aplicações como cinema, criação de conteúdo em vídeo e narrativa digital, tornando mais fácil do que nunca dar vida a visões criativas por meio de vídeos de alta qualidade gerados por IA. Neste artigo, exploraremos o Meta Movie Gen e como ele funciona. Também daremos uma olhada mais de perto em algumas de suas aplicações. Vamos começar!

Fig 1. Um frame de um clipe de vídeo gerado usando Meta Movie Gen.
Link to this sectionO que é o Meta Movie Gen?#
Antes de discutirmos o que é o Meta Movie Gen, vamos dar uma olhada em como ele surgiu.
Os esforços de pesquisa da Meta relacionados à IA generativa começaram com sua série de modelos Make-A-Scene. Esta pesquisa foca em um método de IA generativa multimodal que ajuda artistas e visionários a darem vida à sua imaginação. Os artistas podem inserir imagens, áudio, vídeos ou animações 3D para obter a imagem de saída desejada. O próximo salto em inovação veio com modelos de difusão, como os modelos Llama Image Foundation (Emu), que tornaram possível gerar imagens e vídeos de qualidade muito superior e permitiram a edição de imagens.

Fig 2. Um exemplo de uso de esboço e entrada de texto do Make-A-Scene para obter uma imagem gerada.
O Movie Gen é a contribuição mais recente da Meta para a pesquisa em IA generativa. Ele combina todas as modalidades mencionadas anteriormente e permite um controle mais refinado para que as pessoas possam usar os modelos de formas mais criativas. O Meta Movie Gen é uma coleção de modelos fundamentais para gerar diferentes tipos de mídia, incluindo texto para vídeo, texto para áudio e texto para imagem. Ele consiste em quatro modelos, que são treinados em uma combinação de datasets licenciados e disponíveis publicamente.
Aqui está uma visão geral rápida desses modelos:
- Modelo Movie Gen Video: Um modelo de 30 bilhões de parâmetros que gera vídeos de alta qualidade a partir de prompts de texto.
- Modelo Movie Gen Audio: Um modelo de 13 bilhões de parâmetros que pode criar trilhas sonoras que sincronizam com o conteúdo do vídeo.
- Modelo Personalized Movie Gen Video: Ele gera vídeos de indivíduos específicos com base em um prompt de texto e uma única imagem, mantendo sua semelhança.
- Modelo Movie Gen Edit: O modelo permite edições de vídeo detalhadas baseadas em texto para vídeos reais e fictícios.
Link to this sectionTreinando o modelo de vídeo Meta Movie Gen#
Vários processos importantes estiveram envolvidos na criação e treinamento do modelo Movie Gen Video. O primeiro passo envolveu coletar e preparar dados visuais, incluindo imagens e clipes de vídeo, principalmente de atividades humanas filtradas por qualidade, movimento e relevância. Os dados foram então combinados com legendas de texto que explicavam o que estava acontecendo em cada cena. As legendas, geradas usando o modelo LLaMa3-Video da Meta, forneceram detalhes ricos sobre o conteúdo de cada cena, aprimorando as capacidades de narrativa visual do modelo.

Fig 3. Uma visão geral do pipeline de curadoria de dados de pré-treinamento do modelo Movie Gen Video.
O processo de treinamento começou com o modelo aprendendo a transformar texto em imagens de baixa resolução. Em seguida, progrediu para a criação de clipes de vídeo completos por meio de uma combinação de treinamento texto para imagem e texto para vídeo, usando visuais de qualidade cada vez maior.
Uma ferramenta chamada Temporal Autoencoder (TAE) comprimiu os vídeos para gerenciar grandes volumes de dados de forma eficiente. O ajuste fino (fine-tuning) refinou ainda mais a qualidade do vídeo, e um método chamado média de modelo (que combina várias saídas de modelo para resultados mais suaves e consistentes) garantiu maior consistência na saída. Por fim, o vídeo, inicialmente em 768p, foi redimensionado para uma resolução nítida de 1080p usando uma técnica de upsampler espacial, que aumenta a resolução da imagem adicionando dados de pixels para visuais mais claros. O resultado foram saídas de vídeo detalhadas e de alta qualidade.
Link to this sectionExplorando as capacidades do Meta Movie Gen#
Os modelos Meta Movie Gen suportam principalmente quatro capacidades diferentes. Vamos dar uma olhada mais de perto em cada uma delas.
Link to this sectionGeração de vídeo e áudio#
O Meta Movie Gen pode gerar vídeos de alta qualidade. Esses clipes de vídeo podem ter até 16 segundos de duração e rodar a 16 fps (quadros por segundo), criando visuais realistas que capturam movimento, interações e ângulos de câmera a partir de prompts de texto. Combinado com o modelo de áudio de 13 bilhões de parâmetros, ele pode produzir áudio sincronizado, incluindo sons ambientes, efeitos Foley e música, para combinar com os visuais.
Esta configuração garante uma experiência integrada e realista, onde tanto os visuais quanto o áudio permanecem alinhados e realistas em várias cenas e prompts. Por exemplo, esses modelos foram usados para criar clipes de vídeo do hipopótamo pigmeu viral da Tailândia, chamado Moo Deng.

Fig 4. Um frame de um clipe de vídeo de Moo Deng feito usando o Movie Gen da Meta.
Link to this sectionGeração de vídeo personalizada#
Outra capacidade interessante do modelo Meta Movie Gen é a geração de vídeo personalizada. Os usuários podem fornecer a imagem de uma pessoa e um prompt de texto descrevendo como o clipe de vídeo deve ser gerado, resultando em um vídeo que inclui a pessoa de referência e incorpora os ricos detalhes visuais especificados no prompt de texto. O modelo usa ambas as entradas (imagem e texto) para manter a aparência única da pessoa e seus movimentos corporais naturais, seguindo com precisão a cena descrita no prompt.

Fig 5. Um exemplo da capacidade de geração de vídeo personalizada do modelo.
Link to this sectionEdição de vídeo precisa#
Usando o modelo Movie Gen Edit, os usuários podem fornecer tanto um clipe de vídeo quanto um prompt de texto como entrada para editar o vídeo de maneiras criativas. O modelo combina a geração de vídeo com edição de imagem avançada para realizar edições muito específicas, como adicionar, remover ou substituir elementos. Ele também pode realizar alterações globais, como modificar o plano de fundo do clipe de vídeo ou o estilo geral. Mas o que torna o modelo verdadeiramente único é sua precisão: ele pode atingir apenas os pixels específicos que exigem edição e deixar o restante intocado. Isso preserva o conteúdo original o máximo possível.

Fig 6. Vários exemplos das capacidades de edição de vídeo do modelo Movie Gen Edit.
Link to this sectionFerramentas de benchmarking do Meta Movie Gen#
Junto com os modelos de IA generativa, a Meta também introduziu o Movie Gen Bench, um conjunto de ferramentas de benchmarking para testar o desempenho de modelos de IA generativa. Ele vem com duas ferramentas principais: Movie Gen Video Bench e Movie Gen Audio Bench. Ambas são projetadas para testar diferentes aspectos da geração de vídeo e áudio.
Aqui está um vislumbre de ambas as ferramentas:
- Movie Gen Video Bench: Consiste em 1003 prompts cobrindo uma ampla variedade de categorias de teste, como atividades humanas, animais, cenários naturais, física, bem como assuntos e atividades incomuns. O que torna este benchmark de avaliação especialmente valioso é sua cobertura de níveis de movimento, o que garante que o modelo de geração de vídeo seja testado tanto para sequências rápidas quanto mais lentas.
- Movie Gen Audio Bench: Projetado para testar as capacidades de geração de áudio em 527 prompts. Esses prompts são combinados com vídeos gerados para avaliar quão bem o modelo consegue sincronizar efeitos sonoros e música com o conteúdo visual.

Fig 7. O diagrama mostra um detalhamento dos prompts de avaliação, com uma lista de conceitos à esquerda e uma nuvem de palavras de substantivos e verbos comumente usados à direita.
Link to this sectionUma aplicação prática do Meta Movie Gen#
Agora que abordamos o que são os modelos Meta Movie Gen e como eles funcionam, vamos explorar uma de suas aplicações práticas.
Link to this sectionInovações de IA do Movie Gen no cinema#
Um dos usos mais empolgantes do Movie Gen da Meta é como ele pode transformar o cinema por meio de criação de vídeo e áudio potencializada por IA. Com o Movie Gen, os criadores podem gerar visuais e sons de alta qualidade a partir de simples prompts de texto, abrindo novas maneiras de contar histórias.
Na verdade, a Meta se juntou à Blumhouse e a um grupo de cineastas, reunindo seus comentários sobre como o Movie Gen pode apoiar melhor o processo criativo. Cineastas como Aneesh Chaganty, as irmãs Spurlock e Casey Affleck testaram a capacidade da ferramenta de capturar humor, tom e direção visual. Eles descobriram que os modelos ajudaram a despertar novas ideias.
Este programa piloto mostrou que, embora o Movie Gen não substitua o cinema tradicional, ele oferece aos diretores uma nova maneira de experimentar elementos visuais e de áudio de forma rápida e criativa. Os cineastas também apreciaram como os recursos de edição da ferramenta permitiram que eles brincassem com sons de fundo, efeitos e estilos visuais com mais liberdade.

Fig 8. Um frame de um curta-metragem criado usando Meta Movie Gen.
Link to this sectionPrincipais pontos#
O Meta Movie Gen é um passo à frente no uso de IA generativa para criar vídeos e sons de alta qualidade a partir de descrições de texto simples. A ferramenta ajuda os usuários a criar facilmente vídeos realistas e personalizados. Com capacidades como edição de vídeo precisa e geração de mídia personalizada, o Meta Movie Gen oferece um conjunto de ferramentas flexível que abre novas possibilidades para contar histórias, cinema e muito mais. Ao facilitar a criação de visuais detalhados e úteis, o Meta Movie Gen está transformando a forma como os vídeos são feitos e usados em diferentes áreas e estabelecendo um novo padrão para a criação de conteúdo orientada por IA.
Para saber mais, visite nosso GitHub repository e interaja com nossa community. Explore aplicações de IA em carros autônomos e agricultura em nossas páginas de soluções. 🚀






