Meta Movie Gen: Переосмысление создания контента

Абирами Вина

4 мин. чтения

15 ноября 2024 г.

Узнайте, как Meta Movie Gen меняет представление о создании видео и звука. Узнайте, как эта модель обеспечивает точное редактирование видео и поддерживает создание персонализированных медиафайлов.

Если вы начинающий режиссер или создатель контента, которому нравится снимать видео для своей аудитории, наличие инструментов искусственного интеллекта, расширяющих творческие возможности, всегда полезно. Недавно компания Meta представила свою новейшую генеративную модель видео, известную как Meta Movie Gen. 

Глобальный рынок генеративного ИИ в сфере медиа и развлечений, по прогнозам, достигнет 11,57 миллиарда долларов к 2033 году, а такие компании, как Runway, OpenAI и Meta, станут лидерами в области новаторских инноваций. В частности, Meta Movie Gen отлично подходит для таких сфер, как кинематограф, создание видеоконтента и цифровых историй, позволяя как никогда легко воплощать творческие идеи в жизнь с помощью высококачественных видеороликов, созданных искусственным интеллектом. В этой статье мы расскажем о Meta Movie Gen и о том, как она работает. Мы также рассмотрим некоторые из его применений. Давайте приступим!

__wf_reserved_inherit
Рис. 1. Кадр видеоклипа, созданного с помощью Meta Movie Gen.

Что такое Meta Movie Gen?

Прежде чем мы обсудим, что такое Meta Movie Gen, давайте посмотрим, как он появился. 

Исследования Meta, связанные с генеративным ИИ, начались с серии моделей Make-A-Scene. Это исследование посвящено мультимодальному методу генеративного ИИ, который помогает художникам и фантазерам воплощать свои фантазии в жизнь. Художники могут вводить изображения, аудио, видео или 3D-анимацию, чтобы получить желаемый результат. Следующий скачок в инновациях произошел с появлением диффузных моделей, таких как модели Llama Image Foundation(Emu), которые позволили генерировать изображения и видео гораздо более высокого качества и сделали возможным редактирование изображений.

__wf_reserved_inherit
Рис. 2. Пример использования эскиза Make-A-Scene и ввода текста для получения сгенерированного изображения.

Movie Gen - это последний вклад Meta в исследования генеративного ИИ. Он объединяет все ранее упомянутые способы и позволяет осуществлять более тонкий контроль, чтобы люди могли использовать модели более творчески. Meta Movie Gen - это коллекция основополагающих моделей для генерации различных типов медиа, включая преобразование текста в видео, текста в аудио и текста в изображение. Он состоит из четырех моделей, которые обучаются на сочетании лицензированных и общедоступных наборов данных

Вот краткий обзор этих моделей:

  • Видеомодель Movie Gen: Модель с 30 миллиардами параметров, генерирующая высококачественные видеоролики на основе текстовых подсказок.
  • Модель Movie Gen Audio: Модель с 13 миллиардами параметров, позволяющая создавать саундтреки, синхронизированные с видеоконтентом.
  • Персонализированная видеомодель Movie Gen: Создает видеоролики с конкретными людьми на основе текстовой подсказки и одного изображения, сохраняя их сходство.
  • Модель Movie Gen Edit: Модель позволяет детально редактировать видео на основе текста для реальных и вымышленных видеороликов. 

Обучение видеомодели Meta Movie Gen

При создании и обучении модели Movie Gen Video было задействовано несколько ключевых процессов. На первом этапе были собраны и подготовлены визуальные данные, включая изображения и видеоклипы, в основном человеческой деятельности, отфильтрованные по качеству, движению и релевантности. Затем к этим данным были добавлены текстовые подписи, объясняющие, что происходит в каждой сцене. Подписи, созданные с помощью модели LLaMa3-Video компании Meta, содержали множество подробностей о содержании каждой сцены, что расширяло возможности модели в плане визуального повествования.

__wf_reserved_inherit
Рис. 3. Обзор конвейера предварительной подготовки данных для модели Movie Gen Video.

Процесс обучения начался с того, что модель научилась преобразовывать текст в изображения низкого разрешения. Затем она перешла к созданию полноценных видеоклипов путем сочетания обучения "текст-изображение " и "текст-видео", используя все более качественные изображения. 

Инструмент под названием Temporal Autoencoder (TAE) сжимал видео, чтобы эффективно обрабатывать большие объемы данных. Тонкая настройка позволила повысить качество видео, а метод, называемый усреднением моделей (он объединяет несколько моделей для получения более гладких и последовательных результатов), обеспечил большую согласованность результатов. Наконец, видео, изначально имевшее разрешение 768p, было увеличено до четкого разрешения 1080p с помощью техники пространственного апсемплера, которая увеличивает разрешение изображения путем добавления пиксельных данных для более четкого изображения. Результатом стало высококачественное и детализированное видео.

Изучение возможностей Meta Movie Gen

Модели Meta Movie Gen в основном поддерживают четыре различные способности. Давайте рассмотрим каждую из них подробнее.

Создание видео и аудио

Meta Movie Gen может генерировать высококачественные видеоролики. Эти видеоклипы могут длиться до 16 секунд и работать с частотой 16 кадров в секунду, создавая реалистичные изображения, передающие движение, взаимодействие и ракурсы камеры в соответствии с текстовыми подсказками. В сочетании с аудиомоделью с 13 миллиардами параметров он может создавать синхронизированный звук, включая окружающие звуки, эффекты Foley и музыку, которые соответствуют визуальным эффектам. 

Такая установка обеспечивает плавность и реалистичность визуальных и звуковых эффектов в различных сценах и подсказках. Например, эти модели использовались для создания видеоклипов о вирусном таиландском бегемоте по кличке Му Денг.

__wf_reserved_inherit
Рис. 4. Кадр из видеоклипа Му Денга, созданного с помощью программы Meta's Movie Gen.

Создание персонализированного видео

Еще одна интересная возможность модели Meta Movie Gen - персонализированная генерация видео. Пользователи могут предоставить изображение человека и текстовую подсказку, описывающую, как должен быть сгенерирован видеоклип, в результате чего будет создано видео, включающее человека и богатые визуальные детали, указанные в текстовой подсказке. Модель использует оба входных сигнала (изображение и текст), чтобы сохранить уникальную внешность и естественные движения тела человека, при этом точно повторяя сцену, описанную в подсказке.

__wf_reserved_inherit
Рис. 5. Пример возможностей модели по созданию персонализированного видео.

Точное редактирование видео 

Используя модель Movie Gen Edit, пользователи могут предоставить на вход видеоклип и текстовую подсказку, чтобы отредактировать видео творческим образом. Модель сочетает в себе генерацию видео с расширенным редактированием изображений, что позволяет выполнять очень специфические правки, например добавлять, удалять или заменять элементы. Она также может выполнять глобальные изменения, например, изменять фон видеоклипа или общий стиль. Но что делает эту модель по-настоящему уникальной, так это ее точность: она может нацеливаться только на конкретные пиксели, требующие редактирования, и оставлять остальные нетронутыми. Это позволяет максимально сохранить оригинальный контент. 

__wf_reserved_inherit
Рис. 6. Различные примеры возможностей редактирования видео в модели Movie Gen Edit.

Инструменты бенчмаркинга Meta Movie Gen

Вместе с генеративными моделями ИИ компания Meta также представила Movie Gen Bench, набор бенчмарков для тестирования производительности генеративных моделей ИИ. В него входят два основных инструмента: Movie Gen Video Bench и Movie Gen Audio Bench. Оба они предназначены для тестирования различных аспектов генерации видео и аудио.

Вот краткое описание обоих инструментов:

  • Movie Gen Video Bench: Он состоит из 1003 заданий, охватывающих широкий спектр категорий тестирования, таких как деятельность людей, животные, природные пейзажи, физика, а также необычные предметы и действия. Особую ценность этому оценочному эталону придает охват уровней движения, что позволяет протестировать модель генерации видео как в быстром, так и в медленном темпе.
  • Movie Gen Audio Bench: Он предназначен для тестирования возможностей генерации звука по 527 подсказкам. Эти подсказки сопрягаются со сгенерированными видеороликами, чтобы оценить, насколько хорошо модель может синхронизировать звуковые эффекты и музыку с визуальным контентом.
__wf_reserved_inherit
Рис. 7. На диаграмме показана разбивка оценочных предложений: слева - список понятий, справа - облако слов с часто используемыми существительными и глаголами.

Практическое применение Meta Movie Gen

Теперь, когда мы рассказали о том, что такое модели Meta Movie Gen и как они работают, давайте рассмотрим одно из их практических применений. 

Movie Gen AI инновации в кинематографе

Одно из самых интересных применений Movie Gen от Meta - это то, как он может изменить кинематограф благодаря созданию видео и аудио с помощью искусственного интеллекта. С помощью Movie Gen создатели могут генерировать высококачественные визуальные и звуковые эффекты на основе простых текстовых подсказок, открывая новые способы рассказывать истории. 

Компания Meta совместно с компанией Blumhouse и группой кинематографистов собрала их отзывы о том, как Movie Gen может наилучшим образом поддержать творческий процесс. Такие режиссеры, как Анеш Чаганти, сестры Сперлок и Кейси Аффлек, проверили способность инструмента передавать настроение, тон и визуальное направление. Они обнаружили, что модели помогают вдохнуть свежие идеи.

Пилотная программа показала, что Movie Gen не заменяет традиционного кинопроизводства, но предлагает режиссерам новый способ быстро и творчески экспериментировать с визуальными и звуковыми элементами. Режиссеры также оценили, что функции редактирования инструмента позволяют им более свободно играть с фоновыми звуками, эффектами и визуальными стилями. 

__wf_reserved_inherit
Рис. 8. Кадр короткометражного фильма, созданного с помощью Meta Movie Gen.

Основные выводы

Meta Movie Gen - это шаг вперед в использовании генеративного искусственного интеллекта для создания высококачественных видео и звуков из простых текстовых описаний. Инструмент помогает пользователям легко создавать реалистичные и нестандартные видеоролики. Благодаря таким возможностям, как точное редактирование видео и создание персонализированных медиафайлов, Meta Movie Gen предлагает гибкий набор инструментов, открывающий новые возможности для создания историй, кинофильмов и не только. Упрощая создание детальных и полезных визуальных эффектов, Meta Movie Gen меняет способы создания и использования видео в различных областях и устанавливает новые стандарты создания контента на основе искусственного интеллекта.

Чтобы узнать больше, посетите наш репозиторий GitHub и присоединяйтесь к нашему сообществу. Изучите применение ИИ в самоуправляемых автомобилях и сельском хозяйстве на страницах наших решений. 🚀

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена