Vision AI

Генерация видео с помощью Veo от Google DeepMind

Узнай больше о Veo, новейшей модели генеративного видео от Google DeepMind, которая позволяет без усилий создавать высококачественные видео 1080P по текстовым, графическим и видео-запросам.

АБАбирами Вина

6 min readMay 15, 2024

Генеративная модель видео Veo от Google DeepMind

Во время презентации Google I/O 2024 14 мая компания поделилась последними обновлениями от DeepMind, своего подразделения ИИ. Одним из самых захватывающих достижений стала их новейшая генеративная видеомодель Veo. Veo может создавать высококачественные видео в разрешении 1080P на основе текстовых, графических и видеоподсказок (промптов). Она даже позволяет редактировать уже сгенерированные видео с помощью последующих запросов. Veo выводит генеративный ИИ на новый уровень. Давай подробнее рассмотрим возможности, которые предлагает Veo.

Link to this sectionПонимание возможностей Veo#

Veo — это генеративная видеомодель, которая использует глубокое понимание языка и визуальных образов для создания видео, максимально соответствующих творческому замыслу пользователя. Она точно улавливает тон и детали длинных промптов, что делает ее мощным инструментом для создателей, желающих воплотить свои идеи в точный видеоконтент.

Ты получаешь революционный творческий контроль над сгенерированным видео, поскольку Veo понимает такие кинематографические приемы, как «таймлапс» и «съемка с воздуха». Этот контроль позволяет создавать видео, в которых люди, животные и объекты движутся естественно. Видео, созданные Veo, выглядят привлекательно и увлекательно, ведь порой сложно заметить, что они сгенерированы моделью ИИ.

Veo выходит за рамки простого создания видео по промптам. Если ты предоставишь ранее сгенерированное видео и конкретный запрос на редактирование, например, «добавить каяки на панорамный вид береговой линии», Veo сможет органично вписать эти изменения в исходное видео, создав обновленную версию.

Пример редактирования видео с помощью Veo

Рис. 1. Пример редактирования видео с использованием Veo.

Вот еще несколько функций, которые предлагает Veo:

Масочное редактирование: Veo поможет тебе редактировать определенные области видео.
Создание видео на основе изображений: Используя изображение и текстовый промпт, Veo может генерировать видео, которые повторяют стиль изображения и следуют указаниям промпта.
Расширенные видеоклипы: Veo может создавать и продлевать видеоклипы до 60 секунд и дольше, используя как один промпт, так и последовательность промптов, которые в совокупности рассказывают историю.

Link to this sectionЗахватывающие видео, созданные Veo#

Давай рассмотрим некоторые из видео, созданных Veo, и разберемся, почему они так впечатляют.

Создание таймлапса по короткому текстовому промпту — задача непростая. Обычно короткий текст не может точно передать изменения и движения внутри сцены таймлапса. Поэтому удивительно, что Veo понимает, чего ожидать от таймлапса, не вдаваясь в подробные инструкции.

Кадр из таймлапс-видео, сгенерированного Veo

Рис. 2. Кадр из видео-таймлапса, сгенерированного Veo.

Точно так же генерация видео с реалистичной физикой — нелегкая задача. Модели ИИ необходимо понимать и имитировать законы физики, такие как гравитация, инерция и столкновения, чтобы движения и взаимодействия выглядели правдоподобно. Впечатляет, что Veo способна точно моделировать эти динамические процессы без детальных указаний в текстовых промптах.

Кадр из видео, сгенерированного с помощью Veo, демонстрирующий физику движений медузы

Рис. 3. Кадр из видео, созданного Veo, точно передающий физику движения медузы.

До сих пор мы видели лишь короткие видео, сгенерированные ИИ, из-за вычислительных ограничений и сложности поддержания связности на протяжении длинных последовательностей. На презентации Google I/O 2024 была продемонстрирована потрясающая способность Veo создавать более длинные и сложные видеоролики.

Кадры из более длинного видео Veo, показанного на презентации Google I/O 2024

Рис. 4. Кадры из длинного видео, показанного на презентации Google I/O 2024.

Link to this sectionКак работает Veo?#

Как и многие другие модели ИИ, Veo стоит на плечах гигантов. Она опирается на предыдущие разработки, такие как Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet и Lumiere, а также на проприетарную архитектуру Transformer от Google и Gemini. Кроме того, чтобы улучшить интерпретацию промптов, подписи к каждому видео в обучающем наборе данных стали более подробными.

Основываясь на рабочем процессе модели, представленном Google, вот как работает Veo:

Входные промпты: ты предоставляешь текстовый промпт и, по желанию, изображение.
Кодирование: текстовый промпт обрабатывается энкодером UL2, а изображение — энкодером изображений.
Встроенный промпт: выходные данные от обоих энкодеров объединяются в единый встроенный промпт.
Диффузионная латентная модель: встроенный промпт и шумное сжатое видео передаются в модель, которая генерирует сжатое видео на их основе. Veo использует высококачественные сжатые представления видео, известные как латентные переменные, для повышения эффективности при сохранении высокого качества.
Декодирование: на конечном этапе сжатое видео преобразуется в финальный выходной видеофайл в формате 1080p.

Схема работы Veo

Рис. 5. Принцип работы Veo.

Link to this sectionВпечатляющий пример использования в кинопроизводстве#

Чтобы проверить способности Veo, Google объединилась с режиссером Дональдом Гловером и его творческой студией Gilga. Они использовали Veo для исследования различных творческих приемов, включая динамические трекинг-шоты, требующие точных движений и постоянства кадрирования.

Использование Veo в процессе кинопроизводства

Рис. 6. Использование Veo в процессе кинопроизводства.

Традиционно кинорежиссеры ограничены во времени и ресурсах. С Veo Гловер и его команда могли быстро экспериментировать и создавать сложные кадры, что дало им больше гибкости и возможностей для инноваций.

С помощью Veo Гловер и его команда могли быстро экспериментировать и генерировать сложные кадры до начала реальных съемок. Например, они могли тестировать различные динамические трекинг-шоты, чтобы увидеть результат и внести необходимые коррективы. Этот процесс превизуализации помог им отточить идеи и убедиться, что кадры будут работать как задумано, что в конечном итоге сократило количество дублей на реальных съемках. Они смогли создать убедительный пример того, как Veo может изменить киноиндустрию. Это предлагает более быстрый и эффективный способ воплощения творческих идей.

Link to this sectionПрактическое применение Veo в различных отраслях#

Передовые возможности Veo по генерации видео имеют практическое применение во многих отраслях. В рекламе она позволяет быстро создавать кастомизированные высококачественные ролики для целевой аудитории, экономя время и производственные затраты. В образовании Veo может создавать увлекательные обучающие видео, облегчая понимание сложных концепций.

Компании могут использовать Veo для обучения и корпоративных коммуникаций. Специалисты в области здравоохранения могут применять Veo для моделирования медицинских процедур в учебных целях. Что касается виртуальных мероприятий и конференций, Veo может создавать реалистичные симуляции площадок и сцен, предлагая участникам увлекательный и интерактивный опыт из любой точки мира. Организаторы получают выгоду от расширения охвата и ценных данных для будущих мероприятий. Благодаря Veo открылись бесчисленные возможности.

Когда модель ИИ потенциально может быть использована в разных отраслях, важно помнить о безопасности и этике ИИ. Чтобы обеспечить более широкое внедрение и ответственное использование, Google реализовала несколько мер безопасности. Видео, созданные Veo, помечаются водяными знаками с помощью SynthID — инструмента для маркировки и идентификации контента, сгенерированного ИИ. SynthID обеспечивает прозрачность и помогает снизить риски, связанные с конфиденциальностью, авторскими правами и предвзятостью. Кроме того, все сгенерированные видео проходят через фильтры безопасности и проверку на запоминание данных. Эти меры защиты делают Veo ценным и этичным инструментом, поддерживающим ответственное и инновационное видеопроизводство.

Link to this sectionКак получить доступ к Veo#

В ближайшие недели Google начнет предоставлять доступ к некоторым революционным функциям Veo для избранных авторов через VideoFX, новый инструмент, доступный на сайте labs.google. Эта инициатива обеспечивает ранний доступ к продвинутым возможностям генерации видео, позволяя авторам экспериментировать с его инновационными функциями. Список ожидания для Veo уже открыт, приглашая заинтересованных авторов зарегистрироваться и начать использовать мощные инструменты Veo в своих проектах.

Link to this sectionПодробнее об обновлениях генеративного ИИ от DeepMind в 2024 году#

Помимо Veo, DeepMind представила несколько передовых обновлений в области генеративного ИИ в 2024 году. Одно из них — Imagen 3, их самая продвинутая модель преобразования текста в изображение на сегодняшний день. Imagen 3 превосходно создает фотореалистичные, живые изображения. Она глубоко понимает промпты на естественном языке и улавливает мельчайшие детали, минимизируя визуальные артефакты.

Изображение, сгенерированное с помощью Imagen 3

Рис. 7. Изображение, сгенерированное с помощью Imagen 3.

DeepMind также разработала Lyria, свою самую продвинутую модель для генерации музыки с помощью ИИ. В рамках этого усилия DeepMind создала набор инструментов для работы с музыкой под названием Music AI Sandbox. Эти инструменты позволяют музыкантам и продюсерам исследовать новые творческие возможности в сочинении музыки и звуковой трансформации.

Пример пользовательского интерфейса музыкальных ИИ-инструментов DeepMind

Рис. 8. Пример интерфейса музыкальных ИИ-инструментов от DeepMind.

Как и в случае с Veo, DeepMind внедрила ряд мер безопасности и для своих других обновлений. SynthID будет использоваться во всех этих обновлениях как инструмент для маркировки и идентификации сгенерированного ИИ контента. Эти обновления от DeepMind обещают изменить различные отрасли, предлагая продвинутые, эффективные и ответственные инструменты для создания высококачественного визуального и аудиоконтента.

Link to this sectionНавигация по следующему этапу генеративного ИИ#

Достижения DeepMind в области генеративного ИИ 2024 года, включая Veo, Imagen 3 и Lyria, знаменуют собой значительный скачок в возможностях ИИ. Veo преображает создание видео благодаря способности генерировать качественные 1080p видео из простых промптов, что делает ее универсальным инструментом для режиссеров и создателей контента. Imagen 3 преуспевает в создании фотореалистичных изображений, а Lyria открывает новые возможности в создании музыки с помощью передовых ИИ-инструментов.

Эти технологии обещают трансформировать различные индустрии, предоставляя эффективные и ответственные инструменты для создания высококачественного визуального и аудиоконтента. Благодаря таким мерам безопасности, как SynthID, гарантирующим этичное использование, DeepMind продолжает расширять границы ИИ, прокладывая путь к инновационным применениям в будущем.

Погрузись в мир ИИ, посетив наш GitHub-репозиторий и присоединившись к нашему сообществу. Изучи наши страницы решений, чтобы узнать, как ИИ применяется в производстве и сельском хозяйстве.

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Генерация видео с помощью Veo от Google DeepMind

Link to this sectionПонимание возможностей Veo#

Link to this sectionЗахватывающие видео, созданные Veo#

Link to this sectionКак работает Veo?#

Link to this sectionВпечатляющий пример использования в кинопроизводстве#

Link to this sectionПрактическое применение Veo в различных отраслях#

Link to this sectionКак получить доступ к Veo#

Link to this sectionПодробнее об обновлениях генеративного ИИ от DeepMind в 2024 году#

Link to this sectionНавигация по следующему этапу генеративного ИИ#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!