Генерация видео с помощью Veo от Google DeepMind
Узнай больше о Veo, новейшей модели генеративного видео от Google DeepMind, которая позволяет без усилий создавать высококачественные видео 1080P по текстовым, графическим и видео-запросам.

Во время презентации Google I/O 2024 14 мая компания поделилась последними обновлениями от DeepMind, своего подразделения ИИ. Одним из самых захватывающих достижений стала их новейшая генеративная видеомодель Veo. Veo может создавать высококачественные видео в разрешении 1080P на основе текстовых, графических и видеоподсказок (промптов). Она даже позволяет редактировать уже сгенерированные видео с помощью последующих запросов. Veo выводит генеративный ИИ на новый уровень. Давай подробнее рассмотрим возможности, которые предлагает Veo.
Link to this sectionПонимание возможностей Veo#
Veo — это генеративная видеомодель, которая использует глубокое понимание языка и визуальных образов для создания видео, максимально соответствующих творческому замыслу пользователя. Она точно улавливает тон и детали длинных промптов, что делает ее мощным инструментом для создателей, желающих воплотить свои идеи в точный видеоконтент.
Ты получаешь революционный творческий контроль над сгенерированным видео, поскольку Veo понимает такие кинематографические приемы, как «таймлапс» и «съемка с воздуха». Этот контроль позволяет создавать видео, в которых люди, животные и объекты движутся естественно. Видео, созданные Veo, выглядят привлекательно и увлекательно, ведь порой сложно заметить, что они сгенерированы моделью ИИ.
Veo выходит за рамки простого создания видео по промптам. Если ты предоставишь ранее сгенерированное видео и конкретный запрос на редактирование, например, «добавить каяки на панорамный вид береговой линии», Veo сможет органично вписать эти изменения в исходное видео, создав обновленную версию.

Рис. 1. Пример редактирования видео с использованием Veo.
Вот еще несколько функций, которые предлагает Veo:
- Масочное редактирование: Veo поможет тебе редактировать определенные области видео.
- Создание видео на основе изображений: Используя изображение и текстовый промпт, Veo может генерировать видео, которые повторяют стиль изображения и следуют указаниям промпта.
- Расширенные видеоклипы: Veo может создавать и продлевать видеоклипы до 60 секунд и дольше, используя как один промпт, так и последовательность промптов, которые в совокупности рассказывают историю.
Link to this sectionЗахватывающие видео, созданные Veo#
Давай рассмотрим некоторые из видео, созданных Veo, и разберемся, почему они так впечатляют.
Создание таймлапса по короткому текстовому промпту — задача непростая. Обычно короткий текст не может точно передать изменения и движения внутри сцены таймлапса. Поэтому удивительно, что Veo понимает, чего ожидать от таймлапса, не вдаваясь в подробные инструкции.

Рис. 2. Кадр из видео-таймлапса, сгенерированного Veo.
Точно так же генерация видео с реалистичной физикой — нелегкая задача. Модели ИИ необходимо понимать и имитировать законы физики, такие как гравитация, инерция и столкновения, чтобы движения и взаимодействия выглядели правдоподобно. Впечатляет, что Veo способна точно моделировать эти динамические процессы без детальных указаний в текстовых промптах.

Рис. 3. Кадр из видео, созданного Veo, точно передающий физику движения медузы.
До сих пор мы видели лишь короткие видео, сгенерированные ИИ, из-за вычислительных ограничений и сложности поддержания связности на протяжении длинных последовательностей. На презентации Google I/O 2024 была продемонстрирована потрясающая способность Veo создавать более длинные и сложные видеоролики.

Рис. 4. Кадры из длинного видео, показанного на презентации Google I/O 2024.
Link to this sectionКак работает Veo?#
Как и многие другие модели ИИ, Veo стоит на плечах гигантов. Она опирается на предыдущие разработки, такие как Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet и Lumiere, а также на проприетарную архитектуру Transformer от Google и Gemini. Кроме того, чтобы улучшить интерпретацию промптов, подписи к каждому видео в обучающем наборе данных стали более подробными.
Основываясь на рабочем процессе модели, представленном Google, вот как работает Veo:
- Входные промпты: ты предоставляешь текстовый промпт и, по желанию, изображение.
- Кодирование: текстовый промпт обрабатывается энкодером UL2, а изображение — энкодером изображений.
- Встроенный промпт: выходные данные от обоих энкодеров объединяются в единый встроенный промпт.
- Диффузионная латентная модель: встроенный промпт и шумное сжатое видео передаются в модель, которая генерирует сжатое видео на их основе. Veo использует высококачественные сжатые представления видео, известные как латентные переменные, для повышения эффективности при сохранении высокого качества.
- Декодирование: на конечном этапе сжатое видео преобразуется в финальный выходной видеофайл в формате 1080p.

Рис. 5. Принцип работы Veo.
Link to this sectionВпечатляющий пример использования в кинопроизводстве#
Чтобы проверить способности Veo, Google объединилась с режиссером Дональдом Гловером и его творческой студией Gilga. Они использовали Veo для исследования различных творческих приемов, включая динамические трекинг-шоты, требующие точных движений и постоянства кадрирования.

Рис. 6. Использование Veo в процессе кинопроизводства.
Традиционно кинорежиссеры ограничены во времени и ресурсах. С Veo Гловер и его команда могли быстро экспериментировать и создавать сложные кадры, что дало им больше гибкости и возможностей для инноваций.
С помощью Veo Гловер и его команда могли быстро экспериментировать и генерировать сложные кадры до начала реальных съемок. Например, они могли тестировать различные динамические трекинг-шоты, чтобы увидеть результат и внести необходимые коррективы. Этот процесс превизуализации помог им отточить идеи и убедиться, что кадры будут работать как задумано, что в конечном итоге сократило количество дублей на реальных съемках. Они смогли создать убедительный пример того, как Veo может изменить киноиндустрию. Это предлагает более быстрый и эффективный способ воплощения творческих идей.
Link to this sectionПрактическое применение Veo в различных отраслях#
Передовые возможности Veo по генерации видео имеют практическое применение во многих отраслях. В рекламе она позволяет быстро создавать кастомизированные высококачественные ролики для целевой аудитории, экономя время и производственные затраты. В образовании Veo может создавать увлекательные обучающие видео, облегчая понимание сложных концепций.
Компании могут использовать Veo для обучения и корпоративных коммуникаций. Специалисты в области здравоохранения могут применять Veo для моделирования медицинских процедур в учебных целях. Что касается виртуальных мероприятий и конференций, Veo может создавать реалистичные симуляции площадок и сцен, предлагая участникам увлекательный и интерактивный опыт из любой точки мира. Организаторы получают выгоду от расширения охвата и ценных данных для будущих мероприятий. Благодаря Veo открылись бесчисленные возможности.
Когда модель ИИ потенциально может быть использована в разных отраслях, важно помнить о безопасности и этике ИИ. Чтобы обеспечить более широкое внедрение и ответственное использование, Google реализовала несколько мер безопасности. Видео, созданные Veo, помечаются водяными знаками с помощью SynthID — инструмента для маркировки и идентификации контента, сгенерированного ИИ. SynthID обеспечивает прозрачность и помогает снизить риски, связанные с конфиденциальностью, авторскими правами и предвзятостью. Кроме того, все сгенерированные видео проходят через фильтры безопасности и проверку на запоминание данных. Эти меры защиты делают Veo ценным и этичным инструментом, поддерживающим ответственное и инновационное видеопроизводство.
Link to this sectionКак получить доступ к Veo#
В ближайшие недели Google начнет предоставлять доступ к некоторым революционным функциям Veo для избранных авторов через VideoFX, новый инструмент, доступный на сайте labs.google. Эта инициатива обеспечивает ранний доступ к продвинутым возможностям генерации видео, позволяя авторам экспериментировать с его инновационными функциями. Список ожидания для Veo уже открыт, приглашая заинтересованных авторов зарегистрироваться и начать использовать мощные инструменты Veo в своих проектах.
Link to this sectionПодробнее об обновлениях генеративного ИИ от DeepMind в 2024 году#
Помимо Veo, DeepMind представила несколько передовых обновлений в области генеративного ИИ в 2024 году. Одно из них — Imagen 3, их самая продвинутая модель преобразования текста в изображение на сегодняшний день. Imagen 3 превосходно создает фотореалистичные, живые изображения. Она глубоко понимает промпты на естественном языке и улавливает мельчайшие детали, минимизируя визуальные артефакты.

Рис. 7. Изображение, сгенерированное с помощью Imagen 3.
DeepMind также разработала Lyria, свою самую продвинутую модель для генерации музыки с помощью ИИ. В рамках этого усилия DeepMind создала набор инструментов для работы с музыкой под названием Music AI Sandbox. Эти инструменты позволяют музыкантам и продюсерам исследовать новые творческие возможности в сочинении музыки и звуковой трансформации.

Рис. 8. Пример интерфейса музыкальных ИИ-инструментов от DeepMind.
Как и в случае с Veo, DeepMind внедрила ряд мер безопасности и для своих других обновлений. SynthID будет использоваться во всех этих обновлениях как инструмент для маркировки и идентификации сгенерированного ИИ контента. Эти обновления от DeepMind обещают изменить различные отрасли, предлагая продвинутые, эффективные и ответственные инструменты для создания высококачественного визуального и аудиоконтента.
Link to this sectionНавигация по следующему этапу генеративного ИИ#
Достижения DeepMind в области генеративного ИИ 2024 года, включая Veo, Imagen 3 и Lyria, знаменуют собой значительный скачок в возможностях ИИ. Veo преображает создание видео благодаря способности генерировать качественные 1080p видео из простых промптов, что делает ее универсальным инструментом для режиссеров и создателей контента. Imagen 3 преуспевает в создании фотореалистичных изображений, а Lyria открывает новые возможности в создании музыки с помощью передовых ИИ-инструментов.
Эти технологии обещают трансформировать различные индустрии, предоставляя эффективные и ответственные инструменты для создания высококачественного визуального и аудиоконтента. Благодаря таким мерам безопасности, как SynthID, гарантирующим этичное использование, DeepMind продолжает расширять границы ИИ, прокладывая путь к инновационным применениям в будущем.
Погрузись в мир ИИ, посетив наш GitHub-репозиторий и присоединившись к нашему сообществу. Изучи наши страницы решений, чтобы узнать, как ИИ применяется в производстве и сельском хозяйстве.






