Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Meta Movie Gen: переосмысление создания контента

Абирами Вина

4 мин чтения

15 ноября 2024 г.

Узнайте, как Meta Movie Gen меняет представление о создании видео и звука. Узнайте, как эта модель предлагает точное редактирование видео и поддерживает персонализированное создание медиаконтента.

Будь вы начинающим режиссером или создателем контента, которому нравится снимать видео для своей аудитории, наличие инструментов искусственного интеллекта, расширяющих ваши творческие возможности, всегда полезно. Недавно Meta запустила свою последнюю генеративную видеомодель, известную как Meta Movie Gen. 

Прогнозируется, что глобальный рынок генеративного ИИ в сфере медиа и развлечений достигнет 11,57 миллиарда долларов США к 2033 году, при этом такие компании, как Runway, OpenAI и Meta, лидируют в новаторских инновациях. Meta Movie Gen, в частности, отлично подходит для таких приложений, как кинопроизводство, создание видеоконтента и цифровой сторителлинг, что упрощает воплощение творческих замыслов в жизнь с помощью высококачественных видеороликов, сгенерированных ИИ. В этой статье мы рассмотрим Meta Movie Gen и то, как она работает. Мы также внимательно рассмотрим некоторые из ее применений. Давайте начнем!

__wf_reserved_inherit
Рис. 1. Кадр видеоклипа, сгенерированного с помощью Meta Movie Gen.

Что такое Meta Movie Gen?

Прежде чем мы обсудим, что такое Meta Movie Gen, давайте посмотрим, как он появился. 

Исследовательские усилия Meta, связанные с генеративным ИИ, начались с их серии моделей Make-A-Scene. Это исследование посвящено мультимодальному методу генеративного ИИ, который помогает художникам и провидцам воплощать свои фантазии в жизнь. Художники могут вводить изображения, аудио, видео или 3D-анимацию, чтобы получить желаемый результат изображения. Следующий скачок в инновациях произошел с диффузионными моделями, такими как модели Llama Image Foundation (Emu), которые позволили генерировать изображения и видео гораздо более высокого качества и сделали возможным редактирование изображений.

__wf_reserved_inherit
Рис. 2. Пример использования эскиза и текстового ввода Make-A-Scene для получения сгенерированного изображения.

Movie Gen — это последний вклад Meta в исследования в области генеративного ИИ. Он объединяет все ранее упомянутые модальности и обеспечивает более точный контроль, чтобы люди могли использовать модели более творческими способами. Meta Movie Gen — это набор базовых моделей для создания различных типов медиа, включая текст-в-видео, текст-в-аудио и текст-в-изображение. Он состоит из четырех моделей, которые обучаются на комбинации лицензированных и общедоступных наборов данных

Вот краткий обзор этих моделей:

  • Movie Gen Video model: Модель с 30 миллиардами параметров, которая генерирует высококачественные видеоролики из текстовых запросов. 
  • Movie Gen Audio model: Модель с 13 миллиардами параметров, которая может создавать саундтреки, синхронизирующиеся с видеоконтентом. 
  • Персонализированная модель видео генерации фильмов: Она генерирует видеоролики с конкретными людьми на основе текстового запроса и одного изображения, сохраняя их сходство. 
  • Movie Gen Edit model: Модель позволяет выполнять детальное редактирование видео на основе текста для реальных и вымышленных видеороликов. 

Обучение видеомодели Meta Movie Gen

В создании и обучении видеомодели Movie Gen было задействовано несколько ключевых процессов. Первым шагом был сбор и подготовка визуальных данных, включая изображения и видеоклипы, в основном с человеческой деятельностью, отфильтрованные по качеству, движению и релевантности. Затем данные были сопоставлены с текстовыми подписями, объясняющими, что происходит в каждой сцене. Подписи, сгенерированные с помощью модели LLaMa3 от Meta, предоставили богатые детали о содержании каждой сцены, улучшив возможности модели по визуальному повествованию.

__wf_reserved_inherit
Рис. 3.  Обзор конвейера подготовки данных для предварительного обучения модели Movie Gen Video.

Процесс обучения начался с того, что модель научилась преобразовывать текст в изображения с низким разрешением. Затем он перешел к созданию полных видеоклипов посредством комбинации преобразования текста в изображение и обучения преобразованию текста в видео, используя визуальные эффекты все более высокого качества. 

Инструмент под названием Temporal Autoencoder (TAE) сжимал видео для эффективного управления большими объемами данных. Тонкая настройка дополнительно улучшила качество видео, а метод под названием усреднение моделей (он объединяет несколько выходов моделей для получения более плавных и согласованных результатов) обеспечил большую согласованность выходных данных. Наконец, видео, изначально имевшее разрешение 768p, было повышено до четкого разрешения 1080p с использованием техники пространственного повышения дискретизации, которая увеличивает разрешение изображения путем добавления данных пикселей для получения более четкого изображения. В результате были получены высококачественные, детализированные видеоматериалы.

Изучение возможностей Meta Movie Gen

Модели Meta Movie Gen в основном поддерживают четыре различные возможности. Давайте рассмотрим каждую из них более подробно.

Генерация видео и аудио

Meta Movie Gen может генерировать высококачественные видеоролики. Эти видеоклипы могут длиться до 16 секунд и воспроизводиться со скоростью 16 кадров в секунду, создавая реалистичные визуальные эффекты, которые передают движение, взаимодействие и ракурсы камеры из текстовых подсказок. В сочетании с аудиомоделью с 13 миллиардами параметров она может создавать синхронизированный звук, включая окружающие звуки, звуковые эффекты и музыку, соответствующие визуальным эффектам. 

Эта настройка обеспечивает плавный, реалистичный опыт, где визуальные и звуковые эффекты остаются согласованными и реалистичными в различных сценах и подсказках. Например, эти модели использовались для создания видеороликов вирусного карликового бегемота из Таиланда по имени Му Денг.

__wf_reserved_inherit
Рис. 4. Кадр из видеоклипа Moo Deng, созданного с помощью Movie Gen от Meta.

Персонализированная генерация видео

Еще одна интересная возможность модели Meta Movie Gen — персонализированная генерация видео. Пользователи могут предоставить изображение человека и текстовый запрос с описанием того, как должен быть сгенерирован видеоклип, в результате чего получится видео, которое включает в себя эталонного человека и содержит богатые визуальные детали, указанные в текстовом запросе. Модель использует оба входных параметра (изображение и текст), чтобы сохранить уникальную внешность человека и естественные движения тела, точно следуя сцене, описанной в запросе.

__wf_reserved_inherit
Рис. 5. Пример возможности модели по созданию персонализированного видео.

Точный видеомонтаж 

Используя модель Movie Gen Edit, пользователи могут предоставить как видеоклип, так и текстовый запрос в качестве входных данных для редактирования видео креативными способами. Модель сочетает в себе генерацию видео с расширенным редактированием изображений для выполнения очень специфических изменений, таких как добавление, удаление или замена элементов. Она также может выполнять глобальные изменения, такие как изменение фона видеоклипа или общего стиля. Но что делает модель действительно уникальной, так это ее точность: она может нацеливаться только на определенные пиксели, которые требуют редактирования, и оставлять остальные нетронутыми. Это максимально сохраняет исходный контент. 

__wf_reserved_inherit
Рис. 6. Различные примеры возможностей редактирования видео модели Movie Gen Edit.

Инструменты для бенчмаркинга Meta Movie Gen

Наряду с моделями генеративного ИИ, Meta также представила Movie Gen Bench, набор инструментов для тестирования производительности моделей генеративного ИИ. Он включает в себя два основных инструмента: Movie Gen Video Bench и Movie Gen Audio Bench. Оба предназначены для тестирования различных аспектов генерации видео и аудио.

Вот краткий обзор обоих инструментов:

  • Movie Gen Video Bench: Он состоит из 1003 запросов, охватывающих широкий спектр категорий тестирования, таких как деятельность человека, животные, природные пейзажи, физика, а также необычные предметы и действия. Что делает этот эталон оценки особенно ценным, так это его охват уровней движения, который гарантирует, что модель генерации видео тестируется как для динамичных, так и для более медленных последовательностей.
  • Movie Gen Audio Bench: Предназначен для тестирования возможностей генерации аудио по 527 запросам. Эти запросы сопоставляются с сгенерированными видеороликами для оценки того, насколько хорошо модель может синхронизировать звуковые эффекты и музыку с визуальным контентом.
__wf_reserved_inherit
Рис. 7. На диаграмме показана разбивка подсказок для оценки, со списком концепций слева и облаком слов из часто используемых существительных и глаголов справа.

Практическое применение Meta Movie Gen

Теперь, когда мы рассмотрели, что такое модели Meta Movie Gen и как они работают, давайте рассмотрим одно из их практических применений. 

Инновации в области кинопроизводства с использованием Movie Gen AI

Одним из самых интересных применений Meta Movie Gen является то, как он может трансформировать кинематограф с помощью видео и аудио, созданных на основе ИИ. С помощью Movie Gen создатели могут генерировать высококачественные визуальные эффекты и звуки из простых текстовых запросов, открывая новые способы рассказывать истории. 

Meta объединилась с Blumhouse и группой кинематографистов, чтобы собрать их отзывы о том, как Movie Gen может лучше поддерживать творческий процесс. Такие режиссеры, как Аниш Чаганти, сестры Спурлок и Кейси Аффлек, протестировали способность инструмента улавливать настроение, тон и визуальное направление. Они обнаружили, что модели помогли им генерировать новые идеи.

Эта пилотная программа показала, что, хотя Movie Gen не заменяет традиционное кинопроизводство, он предлагает режиссерам новый способ быстро и творчески экспериментировать с визуальными и звуковыми элементами. Кинематографисты также оценили, как функции редактирования инструмента позволяют им более свободно играть с фоновыми звуками, эффектами и визуальными стилями. 

__wf_reserved_inherit
Рис. 8. Кадр из короткометражного фильма, созданного с помощью Meta Movie Gen.

Основные выводы

Meta Movie Gen — это шаг вперед в использовании генеративного ИИ для создания высококачественных видео и звуков из простых текстовых описаний. Инструмент помогает пользователям легко создавать реалистичные и пользовательские видеоролики. Благодаря таким возможностям, как точное редактирование видео и персонализированная генерация медиафайлов, Meta Movie Gen предлагает гибкий набор инструментов, который открывает новые возможности для повествования, кинопроизводства и многого другого. Облегчая создание подробных и полезных визуальных эффектов, Meta Movie Gen преобразует способы создания и использования видео в различных областях и устанавливает новый стандарт для создания контента на основе ИИ.

Чтобы узнать больше, посетите наш репозиторий GitHub и присоединяйтесь к нашему сообществу. Изучите приложения AI в автомобилях с автоматическим управлением и сельском хозяйстве на страницах наших решений. 🚀

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена