Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Vision AI

Meta Movie Gen: переосмысление создания контента

Узнай, как Meta Movie Gen меняет создание видео и звука. Посмотри, как эта модель обеспечивает точное редактирование видео и поддерживает создание персонализированного медиаконтента.

АБАбирами Вина
4 min read
Создание видео с помощью ИИ Meta Movie Gen

Независимо от того, начинающий ли ты режиссер или контент-мейкер, которому нравится создавать видео для своей аудитории, ИИ-инструменты, расширяющие творческие горизонты, всегда будут кстати. Недавно Meta выпустила свою новейшую модель генерации видео, известную как Meta Movie Gen.

Мировой рынок генеративного ИИ в медиа и индустрии развлечений, по прогнозам, достигнет 11,57 млрд долларов к 2033 году, а такие компании, как Runway, OpenAI и Meta, возглавляют путь в этих инновационных прорывах. Meta Movie Gen, в частности, отлично подходит для таких областей, как кинопроизводство, создание видеоконтента и цифровой сторителлинг, позволяя как никогда легко воплощать творческие идеи в жизнь с помощью высококачественных видео, созданных ИИ. В этой статье мы разберем, что такое Meta Movie Gen и как она работает. Мы также подробнее рассмотрим некоторые сферы ее применения. Давай начнем!

Кадр видеоклипа, созданного с помощью Meta Movie Gen

Рис 1. Кадр видеоклипа, созданного с помощью Meta Movie Gen.

Link to this sectionЧто такое Meta Movie Gen?#

Прежде чем обсуждать, что такое Meta Movie Gen, давай посмотрим, как она появилась.

Исследовательская работа Meta в области генеративного ИИ началась с их серии моделей Make-A-Scene. Это исследование сфокусировано на мультимодальном методе генеративного ИИ, который помогает художникам и визионерам воплощать воображаемое в реальность. Творцы могут использовать изображения, аудио, видео или 3D-анимации в качестве входных данных, чтобы получить желаемый визуальный результат. Следующим скачком в инновациях стали диффузионные модели, такие как базовые модели Llama Image (Emu), которые позволили создавать изображения и видео гораздо более высокого качества и добавили возможности редактирования изображений.

Использование наброска Make-A-Scene и текстового ввода для создания изображения

Рис 2. Пример использования скетча Make-A-Scene и текстового ввода для получения сгенерированного изображения.

Movie Gen — это новейший вклад Meta в исследования генеративного ИИ. Она объединяет все упомянутые ранее модальности и предоставляет более тонкое управление, чтобы ты мог использовать модели более творчески. Meta Movie Gen — это коллекция базовых моделей для генерации различных типов медиа, включая текст-в-видео, текст-в-аудио и текст-в-изображение. Она состоит из четырех моделей, обученных на комбинации лицензированных и общедоступных наборов данных.

Вот краткий обзор этих моделей:

  • Модель Movie Gen Video: модель с 30 миллиардами параметров, которая генерирует высококачественные видео по текстовым описаниям.
  • Модель Movie Gen Audio: модель с 13 миллиардами параметров, которая может создавать саундтреки, синхронизированные с видеоконтентом.
  • Персонализированная модель Movie Gen Video: она генерирует видео с конкретными людьми на основе текстового описания и одного изображения, сохраняя их внешность.
  • Модель Movie Gen Edit: эта модель позволяет выполнять детальное текстовое редактирование видео как для реальных, так и для вымышленных роликов.

Link to this sectionОбучение модели Meta Movie Gen Video#

Для создания и обучения модели Movie Gen Video было задействовано несколько ключевых процессов. Первый этап включал сбор и подготовку визуальных данных, включая изображения и видеоклипы, отфильтрованные по качеству, динамике и релевантности, преимущественно с участием людей. Данные были дополнены текстовыми подписями, описывающими происходящее в каждой сцене. Подписи, сгенерированные с помощью модели Meta LLaMa3-Video, предоставили богатые детали о содержании каждой сцены, расширяя возможности визуального сторителлинга модели.

Обзор конвейера данных предварительного обучения модели Movie Gen Video

Рис 3. Обзор конвейера курации данных для предобучения модели Movie Gen Video.

Процесс обучения начался с того, что модель научилась преобразовывать текст в изображения низкого разрешения. Затем она перешла к созданию полноценных видеоклипов посредством комбинации обучения текст-в-изображение и текст-в-видео с использованием визуальных данных все более высокого качества.

Инструмент под названием Temporal Autoencoder (TAE) сжимал видео для эффективного управления большими объемами данных. Дообучение помогло повысить качество видео, а метод под названием усреднение модели (он объединяет результаты нескольких моделей для более плавных и последовательных результатов) обеспечил большую стабильность вывода. В конечном итоге, видео, изначально имевшее разрешение 768p, было масштабировано до четкого 1080p с помощью метода пространственного апсемплинга, который увеличивает разрешение изображения путем добавления пиксельных данных для большей четкости. Результатом стали высококачественные и детализированные видеоролики.

Link to this sectionИзучение возможностей Meta Movie Gen#

Модели Meta Movie Gen поддерживают четыре основные способности. Давай рассмотрим каждую из них подробнее.

Link to this sectionГенерация видео и аудио#

Meta Movie Gen может генерировать высококачественные видео. Эти видеоклипы могут длиться до 16 секунд и воспроизводиться с частотой 16 кадров в секунду, создавая реалистичные визуальные эффекты, которые передают движение, взаимодействия и камерные ракурсы на основе текстовых промптов. В сочетании с аудиомоделью на 13 миллиардов параметров она может создавать синхронизированный звук, включая эмбиент, эффекты фоли и музыку, соответствующие визуальному ряду.

Такая конфигурация обеспечивает бесшовный и реалистичный опыт, при котором визуальный ряд и аудио остаются согласованными и правдоподобными для различных сцен и запросов. Например, эти модели использовались для создания видеоклипов с вирусным карликовым бегемотом из Таиланда по имени Moo Deng.

Кадр видеоклипа с Му Денг, созданного с помощью Meta Movie Gen

Рис 4. Кадр видеоклипа с Moo Deng, созданного с помощью Meta Movie Gen.

Link to this sectionПерсонализированная генерация видео#

Еще одна интересная возможность модели Meta Movie Gen — это персонализированная генерация видео. Ты можешь предоставить изображение человека и текстовый промпт, описывающий, как должен быть сгенерирован видеоклип, в результате чего получится видео, включающее этого человека и включающее в себя богатые визуальные детали, указанные в тексте. Модель использует оба типа входных данных (изображение и текст), чтобы сохранить уникальную внешность человека и естественные движения тела, точно следуя сцене, описанной в запросе.

Пример возможности персонализированной генерации видео модели

Рис 5. Пример способности модели к персонализированной генерации видео.

Link to this sectionТочное редактирование видео#

Используя модель Movie Gen Edit, ты можешь предоставить в качестве входных данных видеоклип и текстовый промпт для творческого редактирования видео. Модель объединяет генерацию видео с продвинутым редактированием изображений для выполнения очень специфических правок, таких как добавление, удаление или замена элементов. Она также может выполнять глобальные изменения, например, менять фон видеоклипа или его общий стиль. Но что делает модель по-настоящему уникальной, так это ее точность: она может воздействовать только на конкретные пиксели, требующие редактирования, оставляя остальное нетронутым. Это максимально сохраняет оригинальный контент.

Примеры возможностей редактирования видео модели Movie Gen Edit

Рис 6. Различные примеры возможностей редактирования видео модели Movie Gen Edit.

Link to this sectionИнструменты бенчмаркинга Meta Movie Gen#

Наряду с моделями генеративного ИИ, Meta также представила Movie Gen Bench, набор инструментов бенчмаркинга для тестирования производительности моделей генеративного ИИ. Он включает два основных инструмента: Movie Gen Video Bench и Movie Gen Audio Bench. Оба предназначены для тестирования различных аспектов генерации видео и аудио.

Вот краткий обзор обоих инструментов:

  • Movie Gen Video Bench: состоит из 1003 промптов, охватывающих широкий спектр категорий тестирования, таких как человеческая деятельность, животные, природные ландшафты, физические процессы, а также необычные темы и действия. Что делает этот оценочный бенчмарк особенно ценным, так это охват уровней движения, что гарантирует тестирование модели генерации видео как на динамичных, так и на медленных последовательностях.
  • Movie Gen Audio Bench: разработан для тестирования возможностей генерации аудио на основе 527 промптов. Эти запросы сопровождаются сгенерированными видео, чтобы оценить, насколько хорошо модель может синхронизировать звуковые эффекты и музыку с визуальным содержанием.

Анализ промптов для оценки Movie Gen Bench и облако слов

Рис 7. На диаграмме показана разбивка оценочных промптов со списком концепций слева и облаком часто используемых существительных и глаголов справа.

Link to this sectionПрактическое применение Meta Movie Gen#

Теперь, когда мы разобрались, что такое модели Meta Movie Gen и как они работают, давай рассмотрим одно из их практических применений.

Link to this sectionИнновации Movie Gen AI в кинопроизводстве#

Одним из самых захватывающих способов использования Movie Gen от Meta является трансформация кинопроизводства с помощью ИИ-генерации видео и создания звука. С помощью Movie Gen создатели могут генерировать высококачественные визуальные эффекты и звуки из простых текстовых промптов, открывая новые способы рассказывания историй.

Более того, Meta объединилась с Blumhouse и группой режиссеров, собрав их отзывы о том, как Movie Gen может наилучшим образом поддерживать творческий процесс. Режиссеры, такие как Аниш Чаганти, сестры Сперлок и Кейси Аффлек, протестировали способность инструмента передавать настроение, тон и визуальное направление. Они обнаружили, что модели помогают генерировать свежие идеи.

Эта пилотная программа показала, что, хотя Movie Gen не заменяет традиционное кинопроизводство, она предлагает режиссерам новый способ быстро и творчески экспериментировать с визуальными и аудиоэлементами. Режиссеры также оценили, как функции редактирования позволяют им свободнее работать с фоновыми звуками, эффектами и визуальными стилями.

Кадр короткометражного фильма, созданного с помощью Meta Movie Gen

Рис 8. Кадр короткометражного фильма, созданного с помощью Meta Movie Gen.

Link to this sectionОсновные выводы#

Meta Movie Gen — это шаг вперед в использовании генеративного ИИ для создания высококачественных видео и звуков из простых текстовых описаний. Инструмент помогает тебе легко создавать реалистичные и кастомные видео. Обладая такими возможностями, как точное редактирование видео и создание персонализированного медиа, Meta Movie Gen предлагает гибкий набор инструментов, открывающий свежие возможности для сторителлинга, кинопроизводства и многого другого. Делая создание детализированных и полезных визуальных материалов проще, Meta Movie Gen трансформирует способы создания и использования видео в разных сферах и устанавливает новый стандарт для создания контента с помощью ИИ.

Чтобы узнать больше, посети наш репозиторий GitHub и присоединяйся к нашему сообществу. Изучи применение ИИ в самоуправляемых автомобилях и сельском хозяйстве на наших страницах решений. 🚀

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения