Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

Создание видео с помощью Veo от Google DeepMind

Абирами Вина

6 мин чтения

15 мая 2024 г.

Узнайте больше о Veo, новейшей генеративной видеомодели от Google DeepMind, которая может легко создавать высококачественные видеоролики в формате 1080P из текстовых, графических и видеоподсказок.

Во время презентации Google I/O 2024 14 мая они поделились последними обновлениями от DeepMind, своего подразделения ИИ. Одним из самых интересных достижений стала их новейшая генеративная видеомодель Veo. Veo может создавать высококачественные видеоролики в формате 1080P на основе текстовых, графических и видеоподсказок. Она даже позволяет редактировать сгенерированные видеоролики с помощью последующих подсказок. Veo выводит генеративный ИИ на новый уровень. Давайте подробнее рассмотрим функции, которые предлагает Veo. 

Понимание возможностей Veo

Veo — это генеративная видеомодель, которая использует глубокое понимание языка и визуальных эффектов для создания видео, точно соответствующих творческому замыслу пользователя. Она может точно передавать тон и детали длинных подсказок, что делает ее мощным инструментом для авторов, которые хотят преобразовать свои идеи в точный видеоконтент.

Пользователь может получить беспрецедентный творческий контроль над сгенерированным видео, поскольку Veo может понимать такие кинематографические приемы, как «замедленная съемка» и «аэросъемка пейзажа». Этот творческий контроль позволяет пользователям создавать видео, в которых люди, животные и объекты двигаются естественно. Видео, сгенерированные Veo, привлекательны и визуально привлекательны, потому что трудно заметить, что они сгенерированы моделью ИИ.

Veo выходит за рамки простого создания видео по запросу. Если вы предоставите ранее сгенерированное видео и конкретный запрос на редактирование, например, вставку байдарок в аэрофотосъемку береговой линии, Veo сможет плавно интегрировать это изменение в исходное видео, создав обновленную версию.

Рис. 1. Пример редактирования видео с использованием Veo.

Вот еще несколько функций, которые предлагает Veo:

  • Редактирование с маской: Veo может помочь вам редактировать определенные области видео.
  • Создание видео на основе изображений: используя изображение и текстовый запрос, Veo может создавать видео, которые отражают стиль изображения и следуют указаниям запроса.
  • Расширенные видеоклипы: Veo может создавать и расширять видеоклипы до 60 секунд и более, либо из одного запроса, либо из последовательности запросов, которые вместе рассказывают историю.

Захватывающие видео, сгенерированные Veo

Давайте посмотрим несколько видеороликов, созданных Veo, и узнаем, почему они так захватывают дух. 

Создание видео таймлапса из короткого текстового запроса — сложная задача. Как правило, короткий текстовый запрос не может точно передать изменения и движения в сцене таймлапса. Поэтому удивительно, что Veo может понять, чего ожидать от таймлапса, не вдаваясь в подробности. 

Рис. 2. Кадр из таймлапс-видео, сгенерированного Veo.

Аналогично, генерировать видео с точной физикой непросто. Модель ИИ должна понимать и имитировать законы физики, такие как гравитация, импульс и столкновения, чтобы движения и взаимодействия казались реалистичными. Впечатляет, что Veo может точно моделировать эту динамику без подробных указаний из текстовых запросов.

Рис. 3. Кадр из видео, сгенерированного с помощью Veo, точно передает физику движения медуз.

До сих пор мы видели только более короткие видеоролики, сгенерированные ИИ, из-за вычислительных ограничений и сложности поддержания согласованности в течение более длительных последовательностей. На презентации Google I/O 2024 была продемонстрирована потрясающая способность Veo создавать более длинные и сложные видеоролики.

Рис. 4. Кадры из более длинного видео Veo, показанного на презентации Google I/O 2024.

Как работает Veo?

Как и многие другие модели ИИ, Veo стоит на плечах гигантов. Он опирается на предыдущие достижения, такие как Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet и Lumiere, а также на проприетарную архитектуру Transformer и Gemini от Google. Кроме того, чтобы улучшить способность Veo точно интерпретировать подсказки, подписи к каждому видео в его обучающем наборе данных были более подробными. 

Основываясь на примерной схеме работы модели, предоставленной Google, вот как работает Veo:

  • Входные запросы: Вы предоставляете текстовый запрос и, при необходимости, запрос изображения.
  • Кодирование: Текстовый запрос обрабатывается UL2 Encoder, а запрос изображения обрабатывается кодировщиком изображений.
  • Встроенный запрос: Выходы из текстового и графического кодировщиков объединяются для формирования единого встроенного запроса.
  • Модель латентной диффузии: встроенный запрос и зашумленное сжатое видео передаются этой модели, которая генерирует сжатое видео с их использованием. Veo использует высококачественные сжатые представления видео, известные как латентные, для повышения эффективности при сохранении качества.
  • Декодирование: Заключительный этап декодирует видеовыход 1080p из сжатого видео.
Рис. 5. Как работает Veo.

Убедительный пример использования в кинопроизводстве

Чтобы проверить возможности Veo, Google объединилась с режиссером Дональдом Гловером и его креативной студией Gilga. Они использовали Veo для изучения различных творческих приемов, включая динамические кадры слежения, которые требуют точного движения и последовательного кадрирования. 

Рис. 6. Использование Veo в процессе кинопроизводства.

Традиционно режиссеры сталкиваются с ограничениями по времени и ресурсам. С Veo Гловер и его команда смогли быстро экспериментировать и создавать сложные кадры, что, в свою очередь, обеспечило большую гибкость и инновации в процессе кинопроизводства.

С помощью Veo Гловер и его команда могли быстро экспериментировать и генерировать сложные кадры до начала фактической съемки. Например, они могли протестировать различные динамические кадры слежения, чтобы увидеть, как они будут выглядеть, и внести необходимые корректировки. Этот процесс предварительной визуализации помог им усовершенствовать свои идеи и убедиться, что кадры будут работать должным образом, что в конечном итоге сократило количество дублей, необходимых во время фактической съемки. Они смогли создать убедительное тематическое исследование, чтобы продемонстрировать потенциал Veo для изменения киноиндустрии. Он предлагает более быстрый и эффективный способ воплощения творческих замыслов в жизнь.

Практическое применение Veo в различных отраслях 

Расширенные возможности создания видео Veo имеют практическое применение во многих отраслях. В рекламе он может быстро создавать персонализированные высококачественные рекламные ролики для целевой аудитории, экономя время и производственные затраты. В образовании Veo может создавать увлекательные обучающие видеоролики, облегчая понимание сложных концепций. 

Предприятия могут использовать Veo для обучения и корпоративных коммуникаций. Специалисты здравоохранения могут использовать Veo для имитации медицинских процедур в целях обучения. Что касается виртуальных мероприятий и конференций, Veo может создавать реалистичные симуляции мест проведения и сцен, предлагая участникам увлекательный и интерактивный опыт из любой точки мира. Организаторы получают выгоду от расширения охвата и ценной информации для будущих мероприятий. Благодаря Veo открылись бесчисленные возможности.

Когда модель искусственного интеллекта потенциально может затронуть различные отрасли, важно помнить о безопасности и этичном использовании ИИ. Чтобы обеспечить более широкое внедрение и ответственное использование, Google реализовала несколько мер безопасности. Видео, созданные Veo, имеют водяные знаки с использованием SynthID, инструмента для нанесения водяных знаков и идентификации контента, сгенерированного ИИ. SynthId обеспечивает прозрачность и помогает снизить риски, связанные с конфиденциальностью, авторским правом и предвзятостью. Кроме того, все сгенерированные видео проходят через фильтры безопасности и процессы проверки запоминания. Эти меры предосторожности делают Veo ценным и этичным инструментом, поддерживающим ответственное и инновационное производство видео.

Где получить доступ к Veo

В ближайшие недели Google начнет предлагать некоторые из новаторских функций Veo избранным авторам через VideoFX, новый инструмент, доступный в labs.google. Эта инициатива предоставляет ранний доступ к расширенным возможностям создания видео Veo, давая авторам возможность экспериментировать с его инновационными функциями. В настоящее время открыт список ожидания Veo, приглашающий заинтересованных авторов зарегистрироваться и использовать мощные инструменты Veo в своих проектах.

Подробнее об обновлениях генеративного ИИ от DeepMind в 2024 году

Помимо Veo, DeepMind представила несколько передовых обновлений в области генеративного ИИ на 2024 год. Одним из этих обновлений является Imagen 3, их самая передовая модель преобразования текста в изображение на сегодняшний день. Imagen 3 превосходно создает фотореалистичные, живые изображения. Она глубоко понимает подсказки на естественном языке и улавливает сложные детали, сводя к минимуму визуальные артефакты.

Рис. 7. Изображение, сгенерированное с помощью Imagen 3.

DeepMind также разработала Lyria — свою самую передовую модель для генерации музыки с помощью ИИ. В рамках этой работы DeepMind создала набор музыкальных инструментов на основе ИИ под названием Music AI Sandbox. Эти инструменты позволяют музыкантам и продюсерам исследовать новые творческие возможности в музыкальной композиции и преобразовании звука.

Рис. 8. Пример пользовательского интерфейса AI-инструментов DeepMind для работы с музыкой.

Как и Veo, DeepMind реализовала несколько мер безопасности в отношении других своих обновлений. SynthID будет использоваться во всех этих обновлениях в качестве инструмента для нанесения водяных знаков и идентификации контента, сгенерированного ИИ. Эти обновления от DeepMind обещают преобразовать различные отрасли, предлагая передовые, эффективные и ответственные инструменты для создания высококачественного визуального и аудиоконтента.

Навигация по следующему этапу генеративного ИИ

Достижения DeepMind в области генеративного ИИ в 2024 году, включая Veo, Imagen 3 и Lyria, знаменуют собой значительный скачок в возможностях ИИ. Veo преобразует создание видео благодаря своей способности генерировать высококачественные видео в формате 1080p из простых подсказок, что делает его универсальным инструментом для кинематографистов и создателей контента. Imagen 3 превосходно создает фотореалистичные изображения, а Lyria открывает новые возможности в создании музыки с помощью передовых инструментов ИИ.

Эти технологии обещают преобразовать различные отрасли, предоставив эффективные и ответственные инструменты для создания высококачественного визуального и аудиоконтента. Благодаря мерам безопасности, таким как SynthID, обеспечивающим этичное использование, DeepMind продолжает расширять границы ИИ, открывая путь для инновационных приложений в будущем.

Погрузитесь в мир ИИ, посетив наш репозиторий на GitHub и присоединившись к нашему сообществу. Изучите страницы с нашими решениями, чтобы узнать, как применяется ИИ в производстве и сельском хозяйстве.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена