Meta Movie Gen: Reimaginando la creación de contenido
Descubre cómo Meta Movie Gen está redefiniendo la creación de vídeo y sonido. Aprende cómo este modelo ofrece una edición de vídeo precisa y permite la creación de contenido multimedia personalizado.

Tanto si eres un aspirante a cineasta como un creador de contenido al que le gusta hacer vídeos para su audiencia, disponer de herramientas de IA que amplíen tu creatividad siempre es útil. Recientemente, Meta lanzó su último modelo de vídeo generativo, conocido como Meta Movie Gen.
Se prevé que el mercado global de IA generativa en medios y entretenimiento alcance los 11.570 millones de dólares en 2033, con empresas como Runway, OpenAI y Meta liderando el camino en innovaciones revolucionarias. Meta Movie Gen, en particular, es excelente para aplicaciones como el cine, la creación de contenido de vídeo y la narración digital, facilitando más que nunca dar vida a visiones creativas mediante vídeos generados por IA de alta calidad. En este artículo, exploraremos Meta Movie Gen y cómo funciona. También examinaremos más de cerca algunas de sus aplicaciones. ¡Empecemos!

Fig 1. Un fotograma de un videoclip generado usando Meta Movie Gen.
Link to this section¿Qué es Meta Movie Gen?#
Antes de hablar de qué es Meta Movie Gen, echemos un vistazo a cómo surgió.
Los esfuerzos de investigación de Meta relacionados con la IA generativa comenzaron con su serie de modelos Make-A-Scene. Esta investigación se centra en un método de IA generativa multimodal que ayuda a artistas y visionarios a hacer realidad su imaginación. Los artistas pueden introducir imágenes, audio, vídeos o animaciones 3D para obtener el resultado de imagen que deseen. El siguiente salto en la innovación llegó con los modelos de difusión como los modelos Llama Image Foundation (Emu), que hicieron posible generar imágenes y vídeos de mucha mayor calidad y permitieron la edición de imágenes.

Fig 2. Un ejemplo del uso del boceto y la entrada de texto de Make-A-Scene para obtener una imagen generada.
Movie Gen es la última contribución de Meta a la investigación en IA generativa. Combina todas las modalidades mencionadas anteriormente y permite un control más preciso para que las personas puedan usar los modelos de formas más creativas. Meta Movie Gen es una colección de modelos fundacionales para generar diferentes tipos de medios, incluyendo texto a vídeo, texto a audio y texto a imagen. Consiste en cuatro modelos, que están entrenados con una combinación de datasets licenciados y disponibles públicamente.
Aquí tienes un breve resumen de estos modelos:
- Modelo Movie Gen Video: Un modelo de 30 mil millones de parámetros que genera vídeos de alta calidad a partir de mensajes de texto.
- Modelo Movie Gen Audio: Un modelo de 13 mil millones de parámetros que puede crear bandas sonoras que se sincronizan con el contenido de vídeo.
- Modelo Personalized Movie Gen Video: Genera vídeos de personas específicas basándose en un mensaje de texto y una sola imagen, conservando su parecido.
- Modelo Movie Gen Edit: El modelo permite realizar ediciones de vídeo detalladas basadas en texto tanto para vídeos reales como ficticios.
Link to this sectionEntrenando el modelo de vídeo Meta Movie Gen#
Se utilizaron varios procesos clave en la creación y entrenamiento del modelo Movie Gen Video. El primer paso consistió en recopilar y preparar datos visuales, incluyendo imágenes y videoclips, principalmente de actividades humanas filtradas por calidad, movimiento y relevancia. Los datos se combinaron con leyendas de texto que explicaban lo que ocurría en cada escena. Las leyendas, generadas mediante el modelo Meta’s LLaMa3-Video, proporcionaron detalles enriquecidos sobre el contenido de cada escena, mejorando las capacidades de narración visual del modelo.

Fig 3. Una visión general del pipeline de curación de datos de preentrenamiento del modelo Movie Gen Video.
El proceso de entrenamiento comenzó con el modelo aprendiendo a transformar texto en imágenes de baja resolución. Luego progresó a crear videoclips completos mediante una combinación de entrenamiento de texto a imagen y texto a vídeo, utilizando imágenes de calidad cada vez mayor.
Una herramienta llamada Temporal Autoencoder (TAE) comprimió los vídeos para gestionar grandes volúmenes de datos de manera eficiente. El ajuste fino perfeccionó aún más la calidad del vídeo, y un método llamado promedio de modelos (que combina las salidas de múltiples modelos para obtener resultados más fluidos y consistentes) garantizó una mayor consistencia en la salida. Finalmente, el vídeo, inicialmente a 768p, se reescaló a una resolución nítida de 1080p mediante una técnica de submuestreo espacial, que aumenta la resolución de la imagen añadiendo datos de píxeles para obtener imágenes más claras. El resultado fueron salidas de vídeo detalladas y de alta calidad.
Link to this sectionExplorando las capacidades de Meta Movie Gen#
Los modelos de Meta Movie Gen admiten principalmente cuatro habilidades diferentes. Analicemos cada una de ellas más de cerca.
Link to this sectionGeneración de vídeo y audio#
Meta Movie Gen puede generar vídeos de alta calidad. Estos videoclips pueden durar hasta 16 segundos y ejecutarse a 16 fps (fotogramas por segundo), creando imágenes realistas que capturan el movimiento, las interacciones y los ángulos de cámara a partir de mensajes de texto. Junto con el modelo de audio de 13 mil millones de parámetros, puede producir audio sincronizado, incluyendo sonidos ambientales, efectos Foley y música, para que coincidan con las imágenes.
Esta configuración garantiza una experiencia fluida y realista, donde tanto las imágenes como el audio permanecen alineados y realistas en diversas escenas y mensajes. Por ejemplo, estos modelos se utilizaron para crear videoclips del hipopótamo pigmeo viral de Tailandia, llamado Moo Deng.

Fig 4. Un fotograma de un videoclip de Moo Deng realizado usando Movie Gen de Meta.
Link to this sectionGeneración de vídeo personalizado#
Otra capacidad interesante del modelo Meta Movie Gen es la generación de vídeo personalizada. Los usuarios pueden proporcionar la imagen de una persona y un mensaje de texto que describa cómo debe generarse el videoclip, lo que da como resultado un vídeo que incluye a la persona de referencia e incorpora los ricos detalles visuales especificados en el mensaje de texto. El modelo utiliza ambas entradas (imagen y texto) para mantener la apariencia única de la persona y sus movimientos corporales naturales, mientras sigue con precisión la escena descrita en el mensaje.

Fig 5. Un ejemplo de la capacidad de generación de vídeo personalizada del modelo.
Link to this sectionEdición de vídeo precisa#
Usando el modelo Movie Gen Edit, los usuarios pueden proporcionar tanto un videoclip como un mensaje de texto como entrada para editar el vídeo de formas creativas. El modelo combina la generación de vídeo con la edición de imágenes avanzada para realizar ediciones muy específicas, como añadir, eliminar o reemplazar elementos. También puede realizar cambios globales como modificar el fondo del videoclip o el estilo general. Pero lo que hace que el modelo sea verdaderamente único es su precisión: puede dirigirse solo a los píxeles específicos que requieren edición y dejar el resto intacto. Esto preserva el contenido original tanto como sea posible.

Fig 6. Varios ejemplos de las capacidades de edición de vídeo del modelo Movie Gen Edit.
Link to this sectionHerramientas de evaluación comparativa de Meta Movie Gen#
Junto con los modelos de IA generativa, Meta también presentó Movie Gen Bench, un conjunto de herramientas de evaluación comparativa para probar el rendimiento de los modelos de IA generativa. Viene con dos herramientas principales: Movie Gen Video Bench y Movie Gen Audio Bench. Ambas están diseñadas para probar diferentes aspectos de la generación de vídeo y audio.
Aquí tienes un vistazo de ambas herramientas:
- Movie Gen Video Bench: Consiste en 1003 mensajes que cubren una amplia variedad de categorías de prueba como actividades humanas, animales, paisajes naturales, física, así como sujetos y actividades inusuales. Lo que hace que este punto de referencia de evaluación sea especialmente valioso es su cobertura de niveles de movimiento, lo que garantiza que el modelo de generación de vídeo se pruebe tanto para secuencias rápidas como más lentas.
- Movie Gen Audio Bench: Está diseñado para probar las capacidades de generación de audio en 527 mensajes. Estos mensajes se combinan con vídeos generados para evaluar qué tan bien el modelo puede sincronizar efectos de sonido y música con el contenido visual.

Fig 7. El diagrama muestra un desglose de los mensajes de evaluación, con una lista de conceptos a la izquierda y una nube de palabras de sustantivos y verbos de uso común a la derecha.
Link to this sectionUna aplicación práctica de Meta Movie Gen#
Ahora que hemos cubierto qué son los modelos Meta Movie Gen y cómo funcionan, exploremos una de sus aplicaciones prácticas.
Link to this sectionInnovaciones de la IA de Movie Gen en la cinematografía#
Uno de los usos más emocionantes de Movie Gen de Meta es cómo puede transformar la cinematografía mediante la creación de vídeo y audio impulsada por IA. Con Movie Gen, los creadores pueden generar imágenes y sonidos de alta calidad a partir de sencillos mensajes de texto, abriendo nuevas formas de contar historias.
De hecho, Meta se asoció con Blumhouse y un grupo de cineastas, recopilando sus comentarios sobre cómo Movie Gen puede apoyar mejor el proceso creativo. Cineastas como Aneesh Chaganty, las hermanas Spurlock y Casey Affleck probaron la capacidad de la herramienta para capturar el estado de ánimo, el tono y la dirección visual. Descubrieron que los modelos ayudaban a generar nuevas ideas.
Este programa piloto ha demostrado que, si bien Movie Gen no reemplaza la cinematografía tradicional, ofrece a los directores una nueva forma de experimentar con elementos visuales y sonoros de manera rápida y creativa. Los cineastas también apreciaron cómo las funciones de edición de la herramienta les permitían jugar con sonidos de fondo, efectos y estilos visuales con mayor libertad.

Fig 8. Un fotograma de un cortometraje creado usando Meta Movie Gen.
Link to this sectionConclusiones clave#
Meta Movie Gen es un paso adelante en el uso de la IA generativa para realizar vídeos y sonidos de alta calidad a partir de simples descripciones de texto. La herramienta ayuda a los usuarios a crear fácilmente vídeos realistas y personalizados. Con capacidades como la edición de vídeo precisa y la generación de medios personalizados, Meta Movie Gen ofrece un conjunto de herramientas flexible que abre nuevas posibilidades para la narración, la cinematografía y más allá. Al facilitar la creación de imágenes detalladas y útiles, Meta Movie Gen está transformando la forma en que se hacen y utilizan los vídeos en diferentes campos y estableciendo un nuevo estándar para la creación de contenido impulsada por IA.
Para obtener más información, visita nuestro repositorio de GitHub e interactúa con nuestra comunidad. Explora las aplicaciones de IA en vehículos autónomos y agricultura en nuestras páginas de soluciones. 🚀






