Meta Movie Gen: Reimaginar a criação de conteúdos

Abirami Vina

4 min ler

15 de novembro de 2024

Veja como o Meta Movie Gen está a redefinir a criação de vídeo e som. Saiba como este modelo oferece uma edição de vídeo precisa e suporta a criação de suportes personalizados.

Quer seja um aspirante a cineasta ou um criador de conteúdos que gosta de fazer vídeos para o seu público, ter ferramentas de IA que expandam a sua criatividade é sempre útil. Recentemente, a Meta lançou o seu mais recente modelo de vídeo generativo, conhecido como Meta Movie Gen. 

Prevê-se que o mercado global de IA generativa nos meios de comunicação e entretenimento atinja 11,57 mil milhões de dólares até 2033, com empresas como a Runway, a OpenAI e a Meta a liderar o caminho em inovações revolucionárias. O Meta Movie Gen, em particular, é ótimo para aplicações como a realização de filmes, a criação de conteúdos de vídeo e a narração de histórias digitais, tornando mais fácil do que nunca dar vida a visões criativas através de vídeos de alta qualidade gerados por IA. Neste artigo, vamos explorar o Meta Movie Gen e o seu funcionamento. Também analisaremos mais de perto algumas das suas aplicações. Vamos começar!

__wf_reserved_inherit
Fig. 1. Um fotograma de um clip de vídeo gerado com o Meta Movie Gen.

O que é o Meta Movie Gen?

Antes de falarmos sobre o que é o Meta Movie Gen, vamos ver como surgiu. 

Os esforços de investigação da Meta relacionados com a IA generativa começaram com a sua série de modelos Make-A-Scene. Esta investigação centra-se num método de IA generativa multimodal que ajuda os artistas e visionários a dar vida à sua imaginação. Os artistas podem introduzir imagens, áudio, vídeos ou animações 3D para obterem a imagem que desejam. O salto seguinte em termos de inovação deu-se com modelos de difusão como os modelos Llama Image Foundation(Emu), que permitiram gerar imagens e vídeos de muito maior qualidade e possibilitaram a edição de imagens.

__wf_reserved_inherit
Fig. 2. Um exemplo de utilização do esboço e da introdução de texto do Make-A-Scene para obter uma imagem gerada.

O Movie Gen é a mais recente contribuição da Meta para a investigação em IA generativa. Combina todas as modalidades anteriormente mencionadas e permite um controlo ainda mais preciso para que as pessoas possam utilizar os modelos de formas mais criativas. O Meta Movie Gen é uma coleção de modelos fundamentais para gerar diferentes tipos de media, incluindo texto para vídeo, texto para áudio e texto para imagem. É constituída por quatro modelos, que são treinados numa combinação de conjuntos de dados licenciados e publicamente disponíveis. 

Segue-se uma breve descrição destes modelos:

  • Modelo de vídeo Movie Gen: Um modelo de 30 biliões de parâmetros que gera vídeos de alta qualidade a partir de prompts de texto.
  • Modelo Movie Gen Audio: Um modelo de 13 mil milhões de parâmetros que pode criar bandas sonoras que se sincronizam com o conteúdo de vídeo.
  • Modelo de vídeo de geração de filmes personalizados: Gera vídeos de indivíduos específicos com base numa mensagem de texto e numa única imagem, mantendo a sua semelhança.
  • Modelo Movie Gen Edit: O modelo permite edições de vídeo detalhadas e baseadas em texto para vídeos reais e fictícios. 

Treinar o modelo de vídeo Meta Movie Gen

A criação e o treino do modelo Movie Gen Video envolveram vários processos fundamentais. A primeira etapa envolveu a recolha e a preparação de dados visuais, incluindo imagens e clips de vídeo, principalmente de actividades humanas filtradas em termos de qualidade, movimento e relevância. Os dados foram depois emparelhados com legendas de texto que explicavam o que estava a acontecer em cada cena. As legendas, geradas utilizando o modelo LLaMa3-Video do Meta, forneciam pormenores ricos sobre o conteúdo de cada cena, melhorando as capacidades de narração visual do modelo.

__wf_reserved_inherit
Fig. 3. Uma visão geral do pipeline de curadoria de dados de pré-treino do modelo Movie Gen Video.

O processo de formação começou com o modelo a aprender a transformar texto em imagens de baixa resolução. Em seguida, avançou para a criação de clips de vídeo completos através de uma combinação de formação de texto para imagem e de texto para vídeo, utilizando imagens de qualidade crescente. 

Uma ferramenta denominada Temporal Autoencoder (TAE) comprimiu os vídeos para gerir eficazmente grandes volumes de dados. O ajuste fino melhorou ainda mais a qualidade do vídeo, e um método chamado média do modelo (que combina várias saídas do modelo para obter resultados mais suaves e consistentes) garantiu uma maior consistência das saídas. Por fim, o vídeo, inicialmente a 768p, foi melhorado para uma resolução nítida de 1080p utilizando uma técnica de upsampler espacial, que aumenta a resolução da imagem adicionando dados de píxeis para obter imagens mais nítidas. O resultado foram resultados de vídeo detalhados e de alta qualidade.

Explorar as capacidades do Meta Movie Gen

Os modelos do Meta Movie Gen suportam principalmente quatro habilidades diferentes. Vamos dar uma vista de olhos a cada uma delas.

Geração de vídeo e áudio

O Meta Movie Gen pode gerar vídeos de alta qualidade. Estes clips de vídeo podem ter uma duração máxima de 16 segundos e ser executados a 16 fps (fotogramas por segundo), criando imagens realistas que captam movimentos, interações e ângulos de câmara a partir de instruções de texto. Em conjunto com o modelo de áudio de 13 biliões de parâmetros, pode produzir áudio sincronizado, incluindo sons ambiente, efeitos Foley e música, para combinar com os visuais. 

Esta configuração garante uma experiência perfeita e realista, em que tanto o visual como o áudio se mantêm alinhados e realistas em várias cenas e avisos. Por exemplo, estes modelos foram utilizados para criar clips de vídeo do hipopótamo pigmeu viral da Tailândia, chamado Moo Deng.

__wf_reserved_inherit
Fig. 4. Um fotograma de um clip de vídeo de Moo Deng feito com o Movie Gen do Meta.

Geração de vídeos personalizados

Outra capacidade interessante do modelo Meta Movie Gen é a geração de vídeos personalizados. Os utilizadores podem fornecer a imagem de uma pessoa e um texto descrevendo como o videoclipe deve ser gerado, resultando num vídeo que inclui a pessoa de referência e incorpora os ricos detalhes visuais especificados no texto. O modelo utiliza ambas as entradas (imagem e texto) para manter a aparência única da pessoa e os movimentos naturais do corpo, ao mesmo tempo que segue com precisão a cena descrita na mensagem.

__wf_reserved_inherit
Fig. 5. Um exemplo da capacidade de geração de vídeo personalizado do modelo.

Edição de vídeo precisa 

Utilizando o modelo Movie Gen Edit, os utilizadores podem fornecer um clip de vídeo e uma mensagem de texto como entrada para editar o vídeo de forma criativa. O modelo combina a geração de vídeo com a edição avançada de imagens para efetuar edições muito específicas, como adicionar, remover ou substituir elementos. Também pode efetuar alterações globais, como modificar o fundo do clip de vídeo ou o estilo geral. Mas o que torna o modelo verdadeiramente único é a sua precisão: pode visar apenas os pixéis específicos que requerem edição e deixar o resto intacto. Isto preserva o conteúdo original tanto quanto possível. 

__wf_reserved_inherit
Fig. 6. Vários exemplos das capacidades de edição de vídeo do modelo Movie Gen Edit.

Ferramentas de avaliação comparativa do Meta Movie Gen

Juntamente com os modelos de IA generativa, a Meta também apresentou o Movie Gen Bench, um conjunto de ferramentas de avaliação comparativa para testar o desempenho dos modelos de IA generativa. É composto por duas ferramentas principais: Movie Gen Video Bench e Movie Gen Audio Bench. Ambas foram concebidas para testar diferentes aspectos da geração de vídeo e áudio.

Aqui está uma visão geral de ambas as ferramentas:

  • Banco de vídeos Movie Gen: É composto por 1003 sugestões que abrangem uma grande variedade de categorias de teste, tais como actividades humanas, animais, paisagens naturais, física, bem como temas e actividades invulgares. O que torna esta referência de avaliação especialmente valiosa é a sua cobertura de níveis de movimento, o que garante que o modelo de geração de vídeo é testado tanto para sequências de ritmo rápido como para sequências mais lentas.
  • Movie Gen Audio Bench: Foi concebido para testar as capacidades de geração de áudio através de 527 pedidos. Estes avisos são emparelhados com vídeos gerados para avaliar a capacidade do modelo para sincronizar efeitos sonoros e música com o conteúdo visual.
__wf_reserved_inherit
Fig. 7. O diagrama mostra uma repartição dos avisos de avaliação, com uma lista de conceitos à esquerda e uma nuvem de palavras de substantivos e verbos normalmente utilizados à direita.

Uma aplicação prática do Meta Movie Gen

Agora que já falámos sobre o que são os modelos Meta Movie Gen e como funcionam, vamos explorar uma das suas aplicações práticas. 

Movie Gen Inovações da IA na produção de filmes

Uma das utilizações mais interessantes do Movie Gen da Meta é a forma como pode transformar a produção de filmes através da criação de vídeo e áudio com recurso a IA. Com o Movie Gen, os criadores podem gerar imagens e sons de alta qualidade a partir de simples instruções de texto, abrindo novas formas de contar histórias. 

De facto, a Meta juntou-se à Blumhouse e a um grupo de realizadores, recolhendo os seus comentários sobre a forma como o Movie Gen pode apoiar melhor o processo criativo. Cineastas como Aneesh Chaganty, as Spurlock Sisters e Casey Affleck testaram a capacidade da ferramenta de captar o humor, o tom e a direção visual. Eles descobriram que os modelos ajudaram a gerar novas idéias.

Este programa-piloto demonstrou que, embora o Movie Gen não substitua a produção tradicional de filmes, oferece aos realizadores uma nova forma de experimentar elementos visuais e sonoros de forma rápida e criativa. Os realizadores também apreciaram o facto de as funcionalidades de edição da ferramenta lhes permitirem brincar mais livremente com sons de fundo, efeitos e estilos visuais. 

__wf_reserved_inherit
Fig. 8. Um fotograma de uma curta-metragem criada com o Meta Movie Gen.

Principais conclusões

O Meta Movie Gen é um passo em frente na utilização de IA generativa para criar vídeos e sons de alta qualidade a partir de descrições de texto simples. A ferramenta ajuda os utilizadores a criar facilmente vídeos realistas e personalizados. Com capacidades como a edição de vídeo precisa e a criação de suportes personalizados, o Meta Movie Gen oferece um conjunto de ferramentas flexível que abre novas possibilidades para contar histórias, realizar filmes e muito mais. Ao facilitar a criação de imagens detalhadas e úteis, o Meta Movie Gen está a transformar a forma como os vídeos são feitos e utilizados em diferentes campos e a estabelecer um novo padrão para a criação de conteúdos orientados para a IA.

Para saber mais, visite o nosso repositório GitHub e participe na nossa comunidade. Explore as aplicações de IA em carros autónomos e na agricultura nas nossas páginas de soluções. 🚀

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência