Meta Movie Gen: Reimaginar la creación de contenidos

Abirami Vina

4 min leer

15 de noviembre de 2024

Vea cómo Meta Movie Gen está redefiniendo la creación de vídeo y sonido. Descubra cómo este modelo ofrece una edición de vídeo precisa y admite la creación multimedia personalizada.

Tanto si eres un aspirante a cineasta como un creador de contenidos que disfruta haciendo vídeos para su audiencia, contar con herramientas de IA que amplíen tu creatividad siempre es útil. Recientemente, Meta lanzó su último modelo de vídeo generativo, conocido como Meta Movie Gen. 

Se prevé que el mercado mundial de IA generativa en medios de comunicación y entretenimiento alcance los 11.570 millones de dólares en 2033, con empresas como Runway, OpenAI y Meta a la cabeza de innovaciones revolucionarias. Meta Movie Gen, en particular, es ideal para aplicaciones como la realización de películas, la creación de contenidos de vídeo y la narración digital, haciendo que sea más fácil que nunca dar vida a visiones creativas a través de vídeos de alta calidad generados por IA. En este artículo, exploraremos Meta Movie Gen y su funcionamiento. También veremos más de cerca algunas de sus aplicaciones. ¡Vamos a empezar!

__wf_reserved_inherit
Fig. 1. Fotograma de un videoclip generado con Meta Movie Gen.

¿Qué es Meta Movie Gen?

Antes de hablar de qué es Meta Movie Gen, veamos cómo surgió. 

Los esfuerzos de investigación de Meta relacionados con la IA generativa comenzaron con su serie de modelos Make-A-Scene. Esta investigación se centra en un método de IA generativa multimodal que ayuda a artistas y visionarios a dar vida a su imaginación. Los artistas pueden introducir imágenes, audio, vídeos o animaciones en 3D para obtener el resultado que desean. El siguiente salto en innovación llegó con modelos de difusión como los de la Fundación Llama Imagen(Emu), que permitieron generar imágenes y vídeos de mucha mayor calidad y posibilitaron la edición de imágenes.

__wf_reserved_inherit
Fig. 2. Ejemplo de uso del boceto y la entrada de texto de Make-A-Scene para obtener una imagen generada.

Movie Gen es la última contribución de Meta a la investigación de la IA generativa. Combina todas las modalidades mencionadas anteriormente y permite un control más preciso para que los usuarios puedan utilizar los modelos de forma más creativa. Meta Movie Gen es una colección de modelos fundacionales para generar diferentes tipos de medios, incluyendo texto a vídeo, texto a audio y texto a imagen. Consta de cuatro modelos, que se entrenan con una combinación de conjuntos de datos con licencia y de acceso público. 

He aquí un breve resumen de estos modelos:

  • Modelo de vídeo Movie Gen: Un modelo de 30 mil millones de parámetros que genera vídeos de alta calidad a partir de indicaciones de texto.
  • Modelo de audio Movie Gen: Un modelo de 13.000 millones de parámetros que puede crear bandas sonoras sincronizadas con el contenido de vídeo.
  • Modelo de vídeo personalizado Movie Gen: Genera vídeos de personas concretas a partir de una indicación de texto y una sola imagen, conservando su parecido.
  • Modelo Movie Gen Edit: El modelo permite realizar ediciones de vídeo detalladas y basadas en texto para vídeos reales y ficticios. 

Entrenamiento del modelo de vídeo Meta Movie Gen

En la creación y el entrenamiento del modelo Movie Gen Video intervinieron varios procesos clave. El primer paso consistió en recopilar y preparar datos visuales, como imágenes y videoclips, principalmente de actividades humanas filtradas por calidad, movimiento y relevancia. A continuación, los datos se emparejaron con leyendas de texto que explicaban lo que ocurría en cada escena. Los subtítulos, generados con el modelo LLaMa3-Video de Meta, proporcionaban información detallada sobre el contenido de cada escena y mejoraban la capacidad de narración visual del modelo.

__wf_reserved_inherit
Fig. 3. Visión general de la canalización de datos de preentrenamiento del modelo Movie Gen Video.

El proceso de entrenamiento comenzó con el aprendizaje del modelo para transformar texto en imágenes de baja resolución. A continuación, se pasó a crear videoclips completos mediante una combinación de entrenamiento de texto a imagen y de texto a vídeo, utilizando elementos visuales cada vez de mayor calidad. 

Una herramienta llamada Autoencoder Temporal (TAE) comprimió los vídeos para gestionar con eficacia grandes volúmenes de datos. El ajuste fino mejoró la calidad del vídeo, y un método llamado promediado de modelos (que combina múltiples salidas de modelos para obtener resultados más suaves y coherentes) garantizó una mayor coherencia de los resultados. Por último, el vídeo, inicialmente a 768p, se amplió a una resolución nítida de 1080p mediante una técnica de amplificación espacial, que aumenta la resolución de la imagen añadiendo datos de píxeles para obtener imágenes más nítidas. El resultado fue una salida de vídeo detallada y de alta calidad.

Explorar las capacidades de Meta Movie Gen

Los modelos Meta Movie Gen soportan principalmente cuatro habilidades diferentes. Echemos un vistazo más de cerca a cada una de ellas.

Generación de vídeo y audio

Meta Movie Gen puede generar vídeos de alta calidad. Estos clips de vídeo pueden durar hasta 16 segundos y ejecutarse a 16 fps (fotogramas por segundo), creando efectos visuales realistas que capturan el movimiento, las interacciones y los ángulos de cámara a partir de indicaciones de texto. Combinado con el modelo de audio de 13.000 millones de parámetros, puede producir audio sincronizado, incluidos sonidos ambientales, efectos Foley y música, para que coincida con los efectos visuales. 

Esta configuración garantiza una experiencia fluida y realista, en la que tanto las imágenes como el sonido se mantienen alineados y realistas en las distintas escenas e indicaciones. Por ejemplo, estos modelos se utilizaron para crear videoclips del hipopótamo pigmeo de Tailandia, llamado Moo Deng.

__wf_reserved_inherit
Fig. 4. Fotograma de un videoclip de Moo Deng realizado con Movie Gen de Meta.

Generación de vídeos personalizados

Otra función interesante del modelo Meta Movie Gen es la generación de vídeos personalizados. Los usuarios pueden proporcionar la imagen de una persona y un texto que describa cómo debe generarse el videoclip, lo que da como resultado un vídeo que incluye a la persona de referencia e incorpora los ricos detalles visuales especificados en el texto. El modelo utiliza ambas entradas (imagen y texto) para mantener la apariencia única de la persona y los movimientos naturales de su cuerpo, al tiempo que sigue con precisión la escena descrita en el texto.

__wf_reserved_inherit
Fig. 5. Un ejemplo de la capacidad de generación de vídeos personalizados del modelo.

Edición de vídeo precisa 

Con el modelo Movie Gen Edit, los usuarios pueden introducir un clip de vídeo y un texto para editar el vídeo de forma creativa. El modelo combina la generación de vídeo con la edición avanzada de imágenes para realizar ediciones muy específicas, como añadir, eliminar o sustituir elementos. También puede realizar cambios globales, como modificar el fondo del videoclip o el estilo general. Pero lo que hace que el modelo sea realmente único es su precisión: puede centrarse sólo en los píxeles específicos que requieren edición y dejar el resto intacto. Así se preserva al máximo el contenido original. 

__wf_reserved_inherit
Fig. 6. Varios ejemplos de las capacidades de edición de vídeo del modelo Movie Gen Edit.

Herramientas de evaluación comparativa de Meta Movie Gen

Junto con los modelos de IA generativa, Meta también presentó Movie Gen Bench, un conjunto de herramientas de evaluación comparativa para comprobar el rendimiento de los modelos de IA generativa. Incluye dos herramientas principales: Movie Gen Video Bench y Movie Gen Audio Bench. Ambas están diseñadas para probar distintos aspectos de la generación de vídeo y audio.

He aquí un vistazo a ambas herramientas:

  • Banco de vídeos Movie Gen: Consta de 1003 preguntas que cubren una amplia variedad de categorías de prueba, como actividades humanas, animales, paisajes naturales, física, así como temas y actividades inusuales. Lo que hace especialmente valioso este banco de pruebas de evaluación es su cobertura de niveles de movimiento, que garantiza que el modelo de generación de vídeo se pruebe tanto para secuencias de ritmo rápido como para secuencias más lentas.
  • Banco de audio Movie Gen: Está diseñado para probar las capacidades de generación de audio a través de 527 indicaciones. Estas instrucciones se emparejan con vídeos generados para evaluar la capacidad del modelo para sincronizar efectos de sonido y música con el contenido visual.
__wf_reserved_inherit
Fig. 7. El diagrama muestra un desglose de las preguntas de evaluación, con una lista de conceptos a la izquierda y una nube de palabras de sustantivos y verbos de uso común a la derecha.

Una aplicación práctica de Meta Movie Gen

Ahora que ya hemos explicado qué son y cómo funcionan los modelos Meta Movie Gen, vamos a explorar una de sus aplicaciones prácticas. 

Movie Gen Innovaciones de la IA en el cine

Uno de los usos más interesantes de Movie Gen de Meta es cómo puede transformar el cine mediante la creación de vídeo y audio con IA. Con Movie Gen, los creadores pueden generar imágenes y sonidos de alta calidad a partir de simples mensajes de texto, abriendo nuevas formas de contar historias. 

De hecho, Meta se asoció con Blumhouse y un grupo de cineastas para recabar sus opiniones sobre cómo Movie Gen puede apoyar mejor el proceso creativo. Cineastas como Aneesh Chaganty, las hermanas Spurlock y Casey Affleck pusieron a prueba la capacidad de la herramienta para captar el estado de ánimo, el tono y la dirección visual. Descubrieron que los modelos ayudaban a generar nuevas ideas.

Este programa piloto ha demostrado que, aunque Movie Gen no sustituye al cine tradicional, ofrece a los directores una nueva forma de experimentar con elementos visuales y sonoros de forma rápida y creativa. Los realizadores también apreciaron cómo las funciones de edición de la herramienta les permitían jugar con sonidos de fondo, efectos y estilos visuales con mayor libertad. 

__wf_reserved_inherit
Fig 8. Fotograma de un cortometraje creado con Meta Movie Gen.

Principales conclusiones

Meta Movie Gen es un paso adelante en el uso de la IA generativa para crear vídeos y sonidos de alta calidad a partir de simples descripciones de texto. La herramienta ayuda a los usuarios a crear fácilmente vídeos realistas y personalizados. Con capacidades como la edición precisa de vídeo y la generación de medios personalizados, Meta Movie Gen ofrece un conjunto de herramientas flexibles que abren nuevas posibilidades para la narración de historias, la realización de películas y mucho más. Al facilitar la creación de elementos visuales detallados y útiles, Meta Movie Gen está transformando el modo en que se crean y utilizan los vídeos en diferentes campos y estableciendo un nuevo estándar para la creación de contenidos impulsada por IA.

Para obtener más información, visite nuestro repositorio de GitHub y participe en nuestra comunidad. Explora las aplicaciones de IA en coches autónomos y agricultura en nuestras páginas de soluciones. 🚀

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles