Vea cómo Meta Movie Gen está redefiniendo la creación de vídeo y sonido. Aprenda cómo este modelo ofrece una edición de vídeo precisa y admite la creación de medios personalizados.

Vea cómo Meta Movie Gen está redefiniendo la creación de vídeo y sonido. Aprenda cómo este modelo ofrece una edición de vídeo precisa y admite la creación de medios personalizados.

Tanto si eres un aspirante a cineasta como un creador de contenido al que le gusta hacer vídeos para su audiencia, siempre es útil contar con herramientas de IA que amplíen tu creatividad. Recientemente, Meta lanzó su último modelo de vídeo generativo, conocido como Meta Movie Gen.
Se prevé que el mercado global de IA generativa en medios y entretenimiento alcance los 11.570 millones de dólares en 2033, con empresas como Runway, OpenAI y Meta liderando el camino en innovaciones revolucionarias. Meta Movie Gen, en particular, es ideal para aplicaciones como la cinematografía, la creación de contenido de vídeo y la narración digital, lo que facilita más que nunca dar vida a visiones creativas a través de vídeos de alta calidad generados por IA. En este artículo, exploraremos Meta Movie Gen y cómo funciona. También analizaremos más de cerca algunas de sus aplicaciones. ¡Empecemos!

Antes de hablar de qué es Meta Movie Gen, echemos un vistazo a cómo surgió.
Los esfuerzos de investigación de Meta relacionados con la IA generativa comenzaron con su serie de modelos Make-A-Scene. Esta investigación se centra en un método de IA generativa multimodal que ayuda a los artistas y visionarios a dar vida a su imaginación. Los artistas pueden introducir imágenes, audio, vídeos o animaciones 3D para obtener la salida de imagen que deseen. El siguiente salto en la innovación vino con los modelos de difusión como los modelos Llama Image Foundation (Emu), que hicieron posible generar imágenes y vídeos de mucha mayor calidad y permitieron la edición de imágenes.

Movie Gen es la última contribución de Meta a la investigación de la IA generativa. Combina todas las modalidades mencionadas anteriormente y permite un control más preciso para que las personas puedan usar los modelos de formas más creativas. Meta Movie Gen es una colección de modelos fundacionales para generar diferentes tipos de medios, incluyendo texto a vídeo, texto a audio y texto a imagen. Consta de cuatro modelos, que se entrenan en una combinación de conjuntos de datos con licencia y disponibles públicamente.
Aquí hay una descripción general rápida de estos modelos:
Varios procesos clave estuvieron involucrados en la creación y el entrenamiento del modelo de video Movie Gen. El primer paso consistió en recopilar y preparar datos visuales, incluyendo imágenes y videoclips, principalmente de actividades humanas filtradas por calidad, movimiento y relevancia. Los datos se emparejaron con subtítulos de texto que explicaban lo que estaba sucediendo en cada escena. Los subtítulos, generados utilizando el modelo LLaMa3 de Meta, proporcionaron detalles ricos sobre el contenido de cada escena, mejorando las capacidades de narración visual del modelo.

El proceso de entrenamiento comenzó con el modelo aprendiendo a transformar texto en imágenes de baja resolución. Luego, progresó a la creación de videoclips completos a través de una combinación de entrenamiento de texto a imagen y de texto a video, utilizando imágenes visuales de calidad cada vez mayor.
Una herramienta llamada Autoencoder Temporal (TAE) comprimió los videos para gestionar grandes volúmenes de datos de manera eficiente. El ajuste fino mejoró aún más la calidad del video, y un método llamado promediado de modelos (que combina múltiples salidas de modelos para obtener resultados más suaves y consistentes) aseguró una mayor consistencia en la salida. Finalmente, el video, inicialmente a 768p, se escaló a una resolución nítida de 1080p utilizando una técnica de upsampler espacial, que aumenta la resolución de la imagen agregando datos de píxeles para obtener imágenes visuales más claras. El resultado fueron salidas de video detalladas y de alta calidad.
Los modelos Meta Movie Gen admiten principalmente cuatro habilidades diferentes. Echemos un vistazo más de cerca a cada una de ellas.
Meta Movie Gen puede generar videos de alta calidad. Estos videoclips pueden durar hasta 16 segundos y ejecutarse a 16 fps (fotogramas por segundo), creando imágenes visuales realistas que capturan el movimiento, las interacciones y los ángulos de cámara a partir de instrucciones de texto. Junto con el modelo de audio de 13 mil millones de parámetros, puede producir audio sincronizado, incluyendo sonidos ambientales, efectos Foley y música, para que coincida con las imágenes visuales.
Esta configuración garantiza una experiencia fluida y realista, donde tanto las imágenes visuales como el audio permanecen alineados y realistas en varias escenas e indicaciones. Por ejemplo, estos modelos se utilizaron para crear videoclips del hipopótamo pigmeo viral de Tailandia, llamado Moo Deng.

Otra capacidad interesante del modelo Meta Movie Gen es la generación de video personalizado. Los usuarios pueden proporcionar la imagen de una persona y una instrucción de texto que describa cómo se debe generar el videoclip, lo que resulta en un video que incluye a la persona de referencia e incorpora los ricos detalles visuales especificados en la instrucción de texto. El modelo utiliza ambas entradas (imagen y texto) para mantener la apariencia única de la persona y los movimientos corporales naturales, mientras sigue con precisión la escena descrita en la instrucción.

Usando el modelo Movie Gen Edit, los usuarios pueden proporcionar tanto un videoclip como una instrucción de texto como entrada para editar el video de forma creativa. El modelo combina la generación de video con la edición de imágenes avanzada para realizar ediciones muy específicas, como agregar, eliminar o reemplazar elementos. También puede realizar cambios globales como modificar el fondo del videoclip o el estilo general. Pero lo que hace que el modelo sea verdaderamente único es su precisión: puede apuntar solo a los píxeles específicos que requieren edición y dejar el resto intacto. Esto preserva el contenido original tanto como sea posible.

Junto con los modelos de IA generativa, Meta también presentó Movie Gen Bench, un conjunto de herramientas de evaluación comparativa para probar el rendimiento de los modelos de IA generativa. Viene con dos herramientas principales: Movie Gen Video Bench y Movie Gen Audio Bench. Ambos están diseñados para probar diferentes aspectos de la generación de video y audio.
Aquí hay un vistazo de ambas herramientas:

Ahora que hemos cubierto qué son los modelos Meta Movie Gen y cómo funcionan, exploremos una de sus aplicaciones prácticas.
Uno de los usos más interesantes de Meta Movie Gen es cómo puede transformar la cinematografía a través de la creación de audio y video impulsada por IA. Con Movie Gen, los creadores pueden generar imágenes y sonidos de alta calidad a partir de simples indicaciones de texto, abriendo nuevas formas de contar historias.
De hecho, Meta se asoció con Blumhouse y un grupo de cineastas, recopilando sus comentarios sobre cómo Movie Gen puede apoyar mejor el proceso creativo. Cineastas como Aneesh Chaganty, las Spurlock Sisters y Casey Affleck probaron la capacidad de la herramienta para capturar el estado de ánimo, el tono y la dirección visual. Descubrieron que los modelos ayudaban a generar ideas nuevas.
Este programa piloto ha demostrado que, si bien Movie Gen no reemplaza la cinematografía tradicional, ofrece a los directores una nueva forma de experimentar con elementos visuales y de audio de forma rápida y creativa. Los cineastas también apreciaron cómo las funciones de edición de la herramienta les permitían jugar más libremente con los sonidos de fondo, los efectos y los estilos visuales.

Meta Movie Gen es un paso adelante en el uso de la IA generativa para crear videos y sonidos de alta calidad a partir de descripciones de texto sencillas. La herramienta ayuda a los usuarios a crear fácilmente videos realistas y personalizados. Con capacidades como la edición precisa de video y la generación de medios personalizados, Meta Movie Gen ofrece un conjunto de herramientas flexible que abre nuevas posibilidades para la narración de historias, la cinematografía y más allá. Al facilitar la creación de imágenes detalladas y útiles, Meta Movie Gen está transformando la forma en que se hacen y se utilizan los videos en diferentes campos y estableciendo un nuevo estándar para la creación de contenido impulsada por la IA.
Para obtener más información, visite nuestro repositorio de GitHub e interactúe con nuestra comunidad. Explore las aplicaciones de la IA en coches autónomos y la agricultura en nuestras páginas de soluciones. 🚀