视觉 AI

使用 Google DeepMind 的 Veo 生成视频

了解更多关于 Google DeepMind 最新的生成式视频模型 Veo，它能够轻松地从文本、图像和视频提示中创建高质量的 1080P 视频。

ABAbirami Vina

6 min readMay 15, 2024

在 5 月 14 日 Google 2024 I/O 发布会上，他们分享了来自其 AI 部门 DeepMind 的最新进展。其中最令人兴奋的进步之一是他们最新的生成式视频模型 Veo。Veo 可以根据文本、图像和视频提示创建高质量的 1080P 视频。它甚至允许你通过后续提示对生成的视频进行编辑。Veo 将生成式 AI 推向了一个新的高度。让我们深入了解一下 Veo 提供的功能。

Link to this section了解 Veo 的能力#

Veo 是一个生成式视频模型，利用对语言和视觉的深刻理解来创建与用户创意愿景高度匹配的视频。它能够准确捕捉更长提示词的语气和细节，对于希望将想法转化为精确视频内容的创作者来说，它是一个强大的工具。

用户可以对生成的视频拥有突破性的创意控制，因为 Veo 能够理解诸如“延时摄影”和“景观航拍”等电影技术。这种创意控制使人们能够制作出人物、动物和物体自然运动的视频。由 Veo 生成的视频引人入胜且视觉效果极佳，因为你很难辨别它们是由 AI 模型生成的。

Veo 不仅仅是根据提示词创建视频。如果你提供一个之前生成的视频并提出具体的编辑要求，例如在海岸线的航拍画面中插入皮划艇，Veo 就能将这一变化无缝整合到原始视频中，从而生成更新后的版本。

使用 Veo 进行视频编辑的示例

图 1. 使用 Veo 进行视频编辑的示例。

以下是 Veo 提供的更多功能：

遮罩编辑：Veo 可以帮助你编辑视频中定义的区域。
图像驱动的视频创作：利用图像和文本提示，Veo 可以生成既体现图像风格又遵循提示词指令的视频。
长视频片段：Veo 可以从单个提示词或一系列共同讲述故事的提示词中，创建并延长视频片段至 60 秒或更长。

Link to this sectionVeo 生成的惊人视频#

让我们一起看看 Veo 生成的一些视频，了解为什么它们如此令人惊叹。

仅凭简短的文本提示生成延时摄影视频极具挑战性。通常，简短的文本提示无法准确传达延时摄影场景中的变化和运动。因此，令人惊讶的是，Veo 能够在不深入细节的情况下理解延时摄影的预期效果。

Veo 生成的延时视频中的一帧

图 2. Veo 生成的延时视频帧。

同样，生成符合准确物理规律的视频也并不容易。AI 模型需要理解并模拟重力、动量和碰撞等物理定律，才能使运动和交互显得真实。令人印象深刻的是，Veo 能够在没有详细文本提示指导的情况下，准确模拟这些动力学表现。

使用 Veo 生成的捕捉水母运动物理特性的视频中的一帧

图 3. 使用 Veo 生成的准确捕捉水母运动物理特性的视频帧。

到目前为止，由于计算限制以及在较长序列中保持连贯性的复杂性，我们只看到过 AI 生成的短视频。在 Google 2024 I/O 发布会上，展示了 Veo 在创作更长、更复杂视频方面的惊人能力。

Google 2024 I/O 发布会上展示的较长 Veo 视频片段

图 4. Google 2024 I/O 发布会上展示的较长 Veo 视频画面。

Link to this sectionVeo 是如何工作的？#

像许多其他 AI 模型一样，Veo 站在巨人的肩膀上。它借鉴了之前的研究成果，如 Generative Query Network (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet 和 Lumiere，以及 Google 专有的 Transformer 架构和 Gemini。此外，为了提高 Veo 准确解读提示词的能力，训练数据集中每个视频的字幕都更加详细。

根据 Google 分享的大致模型工作流，Veo 的工作原理如下：

输入提示词：你提供一个文本提示，并可选择性地提供一个图像提示。
编码：文本提示由 UL2 Encoder 处理，图像提示由图像编码器处理。
嵌入提示：将文本和图像编码器的输出结合起来，形成一个单一的嵌入提示。
潜在扩散模型：嵌入提示和噪声压缩视频被传递给此模型，该模型利用它们生成压缩视频。Veo 使用高质量的压缩视频表示（即潜在向量）来提高效率并保持质量。
解码：最后一步是从压缩视频中解码出 1080p 的视频输出。

展示 Veo 工作原理的图示

图 5. Veo 的工作原理。

Link to this section电影制作的一个引人注目的案例研究#

为了测试 Veo 的能力，Google 与电影制作人 Donald Glover 及其创意工作室 Gilga 进行了合作。他们利用 Veo 探索了各种创意技术，包括需要精确运动和一致构图的动态追踪镜头。

在电影制作过程中使用 Veo

图 6. 在电影制作过程中使用 Veo。

传统上，电影制作人会受限于时间和资源。有了 Veo，Glover 和他的团队可以快速实验并生成复杂的镜头，这反过来又为电影制作过程提供了更多的灵活性和创新空间。

有了 Veo，Glover 和他的团队可以在实际拍摄前快速实验并生成复杂的镜头。例如，他们可以测试各种动态追踪镜头，看看效果如何并根据需要进行调整。这种预可视化过程帮助他们完善了想法并确保镜头能按预期进行，最终减少了实际拍摄时所需的重拍次数。他们成功创建了一个引人注目的案例研究，展示了 Veo 改变电影行业的潜力。它为将创意愿景变为现实提供了一种更快、更高效的方法。

Link to this sectionVeo 在各行各业的实际应用#

Veo 先进的视频生成能力在许多行业都有实际应用。在广告业，它可以快速为目标受众制作定制化的高质量商业广告，从而节省时间和生产成本。在教育领域，Veo 可以制作引人入胜的教学视频，让复杂的概念更容易理解。

企业可以利用 Veo 进行培训和企业内部沟通。医疗保健专业人士可能会使用 Veo 来模拟医疗过程以进行培训。关于虚拟活动和会议，Veo 可以创建逼真的场地和舞台模拟，让与会者无论身在何处都能获得引人入胜的互动体验。组织者可以从中受益，扩大影响力并获得有价值的洞察，为未来的活动做好准备。多亏了 Veo，无数的机会正在涌现。

当 AI 模型具有触及不同行业的潜力时，记住 AI 的安全性和伦理问题非常重要。为了实现更广泛的采用并确保负责任的使用，Google 实施了几项安全措施。由 Veo 创建的视频使用 SynthID 进行水印处理，这是一种用于标记和识别 AI 生成内容的工具。SynthID 确保了透明度，并有助于降低隐私、版权和偏见风险。除此之外，所有生成的视频都会通过安全过滤器和记忆检查过程。这些保障措施使 Veo 成为一种宝贵且符合伦理的工具，支持负责任且创新的视频制作。

Link to this section如何使用 Veo#

在接下来的几周内，Google 将通过 VideoFX（一种可在 labs.google 上使用的新工具）开始向部分创作者提供 Veo 的一些突破性功能。此举旨在让创作者抢先体验 Veo 先进的视频生成能力，并有机会实验其创新功能。Veo 等待列表现已开放，诚邀感兴趣的创作者注册，以便在其项目中使用 Veo 强大的工具。

Link to this section更多关于 DeepMind 2024 年生成式 AI 更新的内容#

除了 Veo，DeepMind 还针对 2024 年推出了几项尖端的生成式 AI 更新。其中一项是 Imagen 3，这是他们迄今为止最先进的文本转图像模型。Imagen 3 擅长创作照片级逼真的图像。它能深刻理解自然语言提示，并捕捉复杂细节，同时最大限度地减少视觉伪影。

使用 Imagen 3 生成的图像

图 7. 使用 Imagen 3 生成的图像。

DeepMind 还开发了 Lyria，这是其最先进的 AI 音乐生成模型。作为该努力的一部分，DeepMind 创建了一套名为 Music AI Sandbox 的 AI 音乐工具。这些工具使音乐家和制作人能够在音乐创作和声音转换方面探索新的创意可能性。

DeepMind AI 音乐工具的 UI 示例

图 8. DeepMind 的 AI 音乐工具的 UI 示例。

与 Veo 类似，DeepMind 在其其他更新方面也实施了几项安全措施。SynthID 将在这些更新中作为一种用于标记和识别 AI 生成内容的工具被使用。DeepMind 的这些更新承诺通过提供先进、高效且负责任的工具来创作高质量的视觉和音频内容，从而改变各行各业。

Link to this section迈向生成式 AI 的下一个阶段#

DeepMind 2024 年的生成式 AI 进展，包括 Veo、Imagen 3 和 Lyria，标志着 AI 能力的显著飞跃。Veo 凭借其从简单提示词生成高质量 1080p 视频的能力彻底改变了视频创作，成为电影制作人和内容创作者的多功能工具。Imagen 3 在生成照片级逼真图像方面表现出色，而 Lyria 则通过先进的 AI 工具在音乐生成方面引入了新的可能性。

这些技术有望通过提供高效且负责任的工具来创作高质量的视觉和音频内容，从而改变各行各业。通过 SynthID 等确保合规使用的安全措施，DeepMind 不断拓展 AI 的边界，为未来创新应用铺平道路。

访问我们的 GitHub 存储库并加入我们的社区，深入了解 AI。探索我们的解决方案页面，了解 AI 如何应用于制造业和农业。