Yolo Vision Shenzhen
Shenzhen
Únete ahora

Meta Movie Gen: Reimaginar la creación de contenido

Abirami Vina

4 minutos de lectura

15 de noviembre de 2024

Vea cómo Meta Movie Gen está redefiniendo la creación de vídeo y sonido. Aprenda cómo este modelo ofrece una edición de vídeo precisa y admite la creación de medios personalizados.

Tanto si eres un aspirante a cineasta como un creador de contenido al que le gusta hacer vídeos para su audiencia, siempre es útil contar con herramientas de IA que amplíen tu creatividad. Recientemente, Meta lanzó su último modelo de vídeo generativo, conocido como Meta Movie Gen. 

Se prevé que el mercado global de IA generativa en medios y entretenimiento alcance los 11.570 millones de dólares en 2033, con empresas como Runway, OpenAI y Meta liderando el camino en innovaciones revolucionarias. Meta Movie Gen, en particular, es ideal para aplicaciones como la cinematografía, la creación de contenido de vídeo y la narración digital, lo que facilita más que nunca dar vida a visiones creativas a través de vídeos de alta calidad generados por IA. En este artículo, exploraremos Meta Movie Gen y cómo funciona. También analizaremos más de cerca algunas de sus aplicaciones. ¡Empecemos!

__wf_reserved_inherit
Fig. 1. Un fotograma de un videoclip generado con Meta Movie Gen.

¿Qué es Meta Movie Gen?

Antes de hablar de qué es Meta Movie Gen, echemos un vistazo a cómo surgió. 

Los esfuerzos de investigación de Meta relacionados con la IA generativa comenzaron con su serie de modelos Make-A-Scene. Esta investigación se centra en un método de IA generativa multimodal que ayuda a los artistas y visionarios a dar vida a su imaginación. Los artistas pueden introducir imágenes, audio, vídeos o animaciones 3D para obtener la salida de imagen que deseen. El siguiente salto en la innovación vino con los modelos de difusión como los modelos Llama Image Foundation (Emu), que hicieron posible generar imágenes y vídeos de mucha mayor calidad y permitieron la edición de imágenes.

__wf_reserved_inherit
Fig. 2. Un ejemplo del uso del boceto y la entrada de texto de Make-A-Scene para obtener una imagen generada.

Movie Gen es la última contribución de Meta a la investigación de la IA generativa. Combina todas las modalidades mencionadas anteriormente y permite un control más preciso para que las personas puedan usar los modelos de formas más creativas. Meta Movie Gen es una colección de modelos fundacionales para generar diferentes tipos de medios, incluyendo texto a vídeo, texto a audio y texto a imagen. Consta de cuatro modelos, que se entrenan en una combinación de conjuntos de datos con licencia y disponibles públicamente. 

Aquí hay una descripción general rápida de estos modelos:

  • Modelo Movie Gen Video: Un modelo de 30 mil millones de parámetros que genera vídeos de alta calidad a partir de indicaciones de texto.
  • Modelo Movie Gen Audio: Un modelo de 13 mil millones de parámetros que puede crear bandas sonoras que se sincronizan con el contenido de video. 
  • Modelo de video personalizado Movie Gen: Genera videos de individuos específicos basándose en una instrucción de texto y una sola imagen, conservando su apariencia. 
  • Modelo Movie Gen Edit: El modelo permite ediciones de video detalladas basadas en texto para videos reales y ficticios. 

Entrenamiento del modelo de video Meta Movie Gen

Varios procesos clave estuvieron involucrados en la creación y el entrenamiento del modelo de video Movie Gen. El primer paso consistió en recopilar y preparar datos visuales, incluyendo imágenes y videoclips, principalmente de actividades humanas filtradas por calidad, movimiento y relevancia. Los datos se emparejaron con subtítulos de texto que explicaban lo que estaba sucediendo en cada escena. Los subtítulos, generados utilizando el modelo LLaMa3 de Meta, proporcionaron detalles ricos sobre el contenido de cada escena, mejorando las capacidades de narración visual del modelo.

__wf_reserved_inherit
Fig. 3. Un resumen del pipeline de curación de datos de preentrenamiento del modelo de video Movie Gen.

El proceso de entrenamiento comenzó con el modelo aprendiendo a transformar texto en imágenes de baja resolución. Luego, progresó a la creación de videoclips completos a través de una combinación de entrenamiento de texto a imagen y de texto a video, utilizando imágenes visuales de calidad cada vez mayor. 

Una herramienta llamada Autoencoder Temporal (TAE) comprimió los videos para gestionar grandes volúmenes de datos de manera eficiente. El ajuste fino mejoró aún más la calidad del video, y un método llamado promediado de modelos (que combina múltiples salidas de modelos para obtener resultados más suaves y consistentes) aseguró una mayor consistencia en la salida. Finalmente, el video, inicialmente a 768p, se escaló a una resolución nítida de 1080p utilizando una técnica de upsampler espacial, que aumenta la resolución de la imagen agregando datos de píxeles para obtener imágenes visuales más claras. El resultado fueron salidas de video detalladas y de alta calidad.

Explorando las capacidades de Meta Movie Gen

Los modelos Meta Movie Gen admiten principalmente cuatro habilidades diferentes. Echemos un vistazo más de cerca a cada una de ellas.

Generación de video y audio

Meta Movie Gen puede generar videos de alta calidad. Estos videoclips pueden durar hasta 16 segundos y ejecutarse a 16 fps (fotogramas por segundo), creando imágenes visuales realistas que capturan el movimiento, las interacciones y los ángulos de cámara a partir de instrucciones de texto. Junto con el modelo de audio de 13 mil millones de parámetros, puede producir audio sincronizado, incluyendo sonidos ambientales, efectos Foley y música, para que coincida con las imágenes visuales. 

Esta configuración garantiza una experiencia fluida y realista, donde tanto las imágenes visuales como el audio permanecen alineados y realistas en varias escenas e indicaciones. Por ejemplo, estos modelos se utilizaron para crear videoclips del hipopótamo pigmeo viral de Tailandia, llamado Moo Deng.

__wf_reserved_inherit
Fig. 4. Un fotograma de un videoclip de Moo Deng realizado con Movie Gen de Meta.

Generación de video personalizado

Otra capacidad interesante del modelo Meta Movie Gen es la generación de video personalizado. Los usuarios pueden proporcionar la imagen de una persona y una instrucción de texto que describa cómo se debe generar el videoclip, lo que resulta en un video que incluye a la persona de referencia e incorpora los ricos detalles visuales especificados en la instrucción de texto. El modelo utiliza ambas entradas (imagen y texto) para mantener la apariencia única de la persona y los movimientos corporales naturales, mientras sigue con precisión la escena descrita en la instrucción.

__wf_reserved_inherit
Fig. 5. Un ejemplo de la capacidad de generación de video personalizado del modelo.

Edición de video precisa 

Usando el modelo Movie Gen Edit, los usuarios pueden proporcionar tanto un videoclip como una instrucción de texto como entrada para editar el video de forma creativa. El modelo combina la generación de video con la edición de imágenes avanzada para realizar ediciones muy específicas, como agregar, eliminar o reemplazar elementos. También puede realizar cambios globales como modificar el fondo del videoclip o el estilo general. Pero lo que hace que el modelo sea verdaderamente único es su precisión: puede apuntar solo a los píxeles específicos que requieren edición y dejar el resto intacto. Esto preserva el contenido original tanto como sea posible. 

__wf_reserved_inherit
Fig. 6. Varios ejemplos de las capacidades de edición de video del modelo Movie Gen Edit.

Herramientas de evaluación comparativa de Meta Movie Gen

Junto con los modelos de IA generativa, Meta también presentó Movie Gen Bench, un conjunto de herramientas de evaluación comparativa para probar el rendimiento de los modelos de IA generativa. Viene con dos herramientas principales: Movie Gen Video Bench y Movie Gen Audio Bench. Ambos están diseñados para probar diferentes aspectos de la generación de video y audio.

Aquí hay un vistazo de ambas herramientas:

  • Movie Gen Video Bench: Consta de 1003 indicaciones que cubren una amplia variedad de categorías de prueba, tales como actividades humanas, animales, paisajes naturales, física, así como temas y actividades inusuales. Lo que hace que este punto de referencia de evaluación sea especialmente valioso es su cobertura de los niveles de movimiento, lo que garantiza que el modelo de generación de video se pruebe tanto para secuencias de ritmo rápido como para secuencias más lentas.
  • Movie Gen Audio Bench: Está diseñado para probar las capacidades de generación de audio en 527 indicaciones. Estas indicaciones se combinan con videos generados para evaluar qué tan bien el modelo puede sincronizar los efectos de sonido y la música con el contenido visual.
__wf_reserved_inherit
Fig 7. El diagrama muestra un desglose de las indicaciones de evaluación, con una lista de conceptos a la izquierda y una nube de palabras con sustantivos y verbos de uso común a la derecha.

Una aplicación práctica de Meta Movie Gen

Ahora que hemos cubierto qué son los modelos Meta Movie Gen y cómo funcionan, exploremos una de sus aplicaciones prácticas. 

Innovaciones de Movie Gen AI en la cinematografía

Uno de los usos más interesantes de Meta Movie Gen es cómo puede transformar la cinematografía a través de la creación de audio y video impulsada por IA. Con Movie Gen, los creadores pueden generar imágenes y sonidos de alta calidad a partir de simples indicaciones de texto, abriendo nuevas formas de contar historias. 

De hecho, Meta se asoció con Blumhouse y un grupo de cineastas, recopilando sus comentarios sobre cómo Movie Gen puede apoyar mejor el proceso creativo. Cineastas como Aneesh Chaganty, las Spurlock Sisters y Casey Affleck probaron la capacidad de la herramienta para capturar el estado de ánimo, el tono y la dirección visual. Descubrieron que los modelos ayudaban a generar ideas nuevas.

Este programa piloto ha demostrado que, si bien Movie Gen no reemplaza la cinematografía tradicional, ofrece a los directores una nueva forma de experimentar con elementos visuales y de audio de forma rápida y creativa. Los cineastas también apreciaron cómo las funciones de edición de la herramienta les permitían jugar más libremente con los sonidos de fondo, los efectos y los estilos visuales. 

__wf_reserved_inherit
Fig 8. Un fotograma de un cortometraje creado con Meta Movie Gen.

Conclusiones clave

Meta Movie Gen es un paso adelante en el uso de la IA generativa para crear videos y sonidos de alta calidad a partir de descripciones de texto sencillas. La herramienta ayuda a los usuarios a crear fácilmente videos realistas y personalizados. Con capacidades como la edición precisa de video y la generación de medios personalizados, Meta Movie Gen ofrece un conjunto de herramientas flexible que abre nuevas posibilidades para la narración de historias, la cinematografía y más allá. Al facilitar la creación de imágenes detalladas y útiles, Meta Movie Gen está transformando la forma en que se hacen y se utilizan los videos en diferentes campos y estableciendo un nuevo estándar para la creación de contenido impulsada por la IA.

Para obtener más información, visite nuestro repositorio de GitHub e interactúe con nuestra comunidad. Explore las aplicaciones de la IA en coches autónomos y la agricultura en nuestras páginas de soluciones. 🚀

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles