Veja como o Meta Movie Gen está redefinindo a criação de vídeo e som. Saiba como este modelo oferece edição de vídeo precisa e suporta a criação de mídia personalizada.

Veja como o Meta Movie Gen está redefinindo a criação de vídeo e som. Saiba como este modelo oferece edição de vídeo precisa e suporta a criação de mídia personalizada.
Seja você um aspirante a cineasta ou um criador de conteúdo que gosta de fazer vídeos para seu público, ter ferramentas de IA que expandam sua criatividade é sempre útil. Recentemente, a Meta lançou seu modelo de vídeo generativo mais recente, conhecido como Meta Movie Gen.
O mercado global de IA generativa em mídia e entretenimento está projetado para atingir US$ 11,57 bilhões até 2033, com empresas como Runway, OpenAI e Meta liderando o caminho em inovações inovadoras. O Meta Movie Gen, em particular, é ótimo para aplicações como produção de filmes, criação de conteúdo de vídeo e narrativa digital, tornando mais fácil do que nunca dar vida a visões criativas por meio de vídeos de alta qualidade gerados por IA. Neste artigo, exploraremos o Meta Movie Gen e como ele funciona. Também veremos mais de perto algumas de suas aplicações. Vamos começar!
Antes de discutirmos o que é o Meta Movie Gen, vamos dar uma olhada em como ele surgiu.
Os esforços de pesquisa da Meta relacionados à IA generativa começaram com sua série de modelos Make-A-Scene. Esta pesquisa se concentra em um método de IA generativa multimodal que ajuda artistas e visionários a dar vida à sua imaginação. Os artistas podem inserir imagens, áudio, vídeos ou animações 3D para obter a saída de imagem que desejam. O próximo salto na inovação veio com modelos de difusão como os modelos Llama Image Foundation (Emu), que tornaram possível gerar imagens e vídeos de qualidade muito superior e permitiram a edição de imagens.
O Movie Gen é a mais recente contribuição da Meta para a pesquisa de IA generativa. Ele combina todas as modalidades mencionadas anteriormente e permite um controle mais refinado para que as pessoas possam usar os modelos de maneiras mais criativas. O Meta Movie Gen é uma coleção de modelos fundamentais para gerar diferentes tipos de mídia, incluindo texto para vídeo, texto para áudio e texto para imagem. Ele consiste em quatro modelos, que são treinados em uma combinação de conjuntos de dados licenciados e disponíveis publicamente.
Aqui está uma visão geral rápida desses modelos:
Vários processos-chave estiveram envolvidos na criação e no treinamento do modelo Movie Gen Video. A primeira etapa envolveu a coleta e o preparo de dados visuais, incluindo imagens e videoclipes, principalmente de atividades humanas filtradas por qualidade, movimento e relevância. Os dados foram então emparelhados com legendas de texto que explicavam o que estava acontecendo em cada cena. As legendas, geradas usando o modelo LLaMa3 da Meta-Video, forneceram detalhes ricos sobre o conteúdo de cada cena, aprimorando as capacidades de narrativa visual do modelo.
O processo de treinamento começou com o modelo aprendendo a transformar texto em imagens de baixa resolução. Em seguida, progrediu para a criação de videoclipes completos por meio de uma combinação de treinamento de texto para imagem e texto para vídeo, usando visuais de qualidade cada vez maior.
Uma ferramenta chamada Autoencoder Temporal (TAE) comprimiu os vídeos para gerenciar grandes volumes de dados de forma eficiente. O Ajuste fino aprimorou ainda mais a qualidade do vídeo, e um método chamado média de modelos (que combina várias saídas de modelos para resultados mais suaves e consistentes) garantiu maior consistência de saída. Finalmente, o vídeo, inicialmente em 768p, foi ampliado para uma resolução nítida de 1080p usando uma técnica de upsampler espacial, que aumenta a resolução da imagem adicionando dados de pixels para visuais mais nítidos. O resultado foram saídas de vídeo detalhadas e de alta qualidade.
Os modelos Meta Movie Gen suportam principalmente quatro habilidades diferentes. Vamos dar uma olhada mais de perto em cada uma delas.
O Meta Movie Gen pode gerar vídeos de alta qualidade. Esses videoclipes podem ter até 16 segundos de duração e rodar a 16 fps (quadros por segundo), criando visuais realistas que capturam movimento, interações e ângulos de câmera a partir de prompts de texto. Emparelhado com o modelo de áudio de 13 bilhões de parâmetros, ele pode produzir áudio sincronizado, incluindo sons ambientes, efeitos Foley e música, para corresponder aos visuais.
Esta configuração garante uma experiência perfeita e realista, onde tanto os visuais quanto o áudio permanecem alinhados e realistas em várias cenas e prompts. Por exemplo, esses modelos foram usados para criar videoclipes do hipopótamo-pigmeu viral da Tailândia, chamado Moo Deng.
Outra capacidade interessante do modelo Meta Movie Gen é a geração de vídeos personalizados. Os usuários podem fornecer a imagem de uma pessoa e um prompt de texto descrevendo como o videoclipe deve ser gerado, resultando em um vídeo que inclui a pessoa de referência e incorpora os ricos detalhes visuais especificados no prompt de texto. O modelo usa ambas as entradas (imagem e texto) para manter a aparência única da pessoa e os movimentos corporais naturais, enquanto segue com precisão a cena descrita no prompt.
Usando o modelo Movie Gen Edit, os usuários podem fornecer um videoclipe e um prompt de texto como entrada para editar o vídeo de maneiras criativas. O modelo combina a geração de vídeo com edição de imagem avançada para realizar edições muito específicas, como adicionar, remover ou substituir elementos. Ele também pode realizar alterações globais, como modificar o fundo do videoclipe ou o estilo geral. Mas o que torna o modelo verdadeiramente único é sua precisão: ele pode segmentar apenas os pixels específicos que exigem edição e deixar o restante intocado. Isso preserva o conteúdo original o máximo possível.
Juntamente com os modelos de IA generativa, a Meta também introduziu o Movie Gen Bench, um conjunto de ferramentas de benchmarking para testar o desempenho de modelos de IA generativa. Ele vem com duas ferramentas principais: Movie Gen Video Bench e Movie Gen Audio Bench. Ambos são projetados para testar diferentes aspectos da geração de vídeo e áudio.
Aqui está um vislumbre de ambas as ferramentas:
Agora que abordamos o que são os modelos Meta Movie Gen e como eles funcionam, vamos explorar uma de suas aplicações práticas.
Um dos usos mais interessantes do Movie Gen do Meta é como ele pode transformar a produção de filmes por meio da criação de vídeo e áudio com tecnologia de IA. Com o Movie Gen, os criadores podem gerar visuais e sons de alta qualidade a partir de simples comandos de texto, abrindo novas maneiras de contar histórias.
De fato, a Meta se uniu à Blumhouse e a um grupo de cineastas, reunindo seus feedbacks sobre como o Movie Gen pode melhor apoiar o processo criativo. Cineastas como Aneesh Chaganty, as Spurlock Sisters e Casey Affleck testaram a capacidade da ferramenta de capturar humor, tom e direção visual. Eles descobriram que os modelos ajudaram a gerar novas ideias.
Este programa piloto mostrou que, embora o Movie Gen não substitua a produção cinematográfica tradicional, ele oferece aos diretores uma nova maneira de experimentar elementos visuais e de áudio de forma rápida e criativa. Os cineastas também apreciaram como os recursos de edição da ferramenta permitiram que eles brincassem mais livremente com sons de fundo, efeitos e estilos visuais.
O Meta Movie Gen é um passo à frente no uso de IA generativa para criar vídeos e sons de alta qualidade a partir de descrições de texto simples. A ferramenta ajuda os usuários a criar vídeos realistas e personalizados facilmente. Com recursos como edição de vídeo precisa e geração de mídia personalizada, o Meta Movie Gen oferece um conjunto de ferramentas flexível que abre novas possibilidades para contar histórias, fazer filmes e muito mais. Ao facilitar a criação de visuais detalhados e úteis, o Meta Movie Gen está transformando a forma como os vídeos são feitos e usados em diferentes campos e estabelecendo um novo padrão para a criação de conteúdo orientado por IA.
Para saber mais, visite nosso repositório no GitHub e interaja com a nossa comunidade. Explore aplicações de IA em carros autônomos e na agricultura em nossas páginas de soluções. 🚀