敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

使用 Google DeepMind 的 Veo 生成视频

Abirami Vina

6 分钟阅读

2024 年 5 月 15 日

了解有关 Veo 的更多信息,这是 Google DeepMind 最新的生成式视频模型,可以轻松地从文本、图像和视频提示创建高质量的 1080P 视频。

在 5 月 14 日举行的 Google 2024 I/O 大会上,他们分享了来自其人工智能部门 DeepMind 的最新更新。其中最令人兴奋的进展是他们最新的生成式视频模型 Veo。Veo 可以根据文本、图像和视频提示创建高质量的 1080P 视频。它甚至允许您使用后续提示编辑生成的视频。Veo 将生成式人工智能提升到了一个新的水平。让我们仔细看看 Veo 提供的功能。 

了解 Veo 的功能

Veo 是一种生成式视频模型,它利用对语言和视觉效果的深刻理解来创建与用户创意愿景紧密匹配的视频。它可以准确地捕捉较长提示的语气和细节,使其成为希望将想法转化为精确视频内容的创作者的强大工具。

用户可以对生成的视频进行开创性的创意控制,因为 Veo 可以理解诸如“延时摄影”和“景观航拍”之类的电影技术。这种创意控制使用户可以创建人物、动物和物体自然移动的视频。Veo 生成的视频引人入胜且具有视觉吸引力,因为很难发现它们是由 AI 模型生成的。

Veo 不仅仅是从提示创建视频。如果您提供先前生成的视频和特定的编辑请求,例如将皮划艇插入海岸线的航拍视图中,Veo 可以将此更改无缝集成到原始视频中,从而生成更新的版本。

图 1. 使用 Veo 进行视频编辑的示例。

以下是 Veo 提供的一些更多功能:

  • 蒙版编辑:Veo 可以帮助您编辑视频的指定区域。
  • 图像启发式视频创作:使用图像和文本提示,Veo 可以生成反映图像风格并遵循提示方向的视频。
  • 扩展视频片段:Veo可以创建和扩展视频片段至60秒或更长,既可以从单个提示生成,也可以从一系列共同讲述一个故事的提示生成。

Veo生成的令人惊叹的视频

让我们一起来看看Veo生成的这些令人惊叹的视频,并分析其原因。 

通过简短的文本提示生成延时视频是一项具有挑战性的任务。通常,简短的文本提示无法准确传达延时场景中的变化和运动。因此,Veo能够在不深入细节的情况下理解延时视频的预期效果,这令人震惊。 

图2. Veo生成的延时视频中的一帧。

同样,生成具有精确物理效果的视频也并非易事。AI模型需要理解并模拟物理定律,如重力、动量和碰撞,以使运动和交互看起来逼真。令人印象深刻的是,Veo能够在没有文本提示详细指导的情况下,准确地模拟这些动态。

图3. 使用Veo生成的视频中的一帧,准确捕捉了水母运动的物理特性。

到目前为止,由于计算限制以及在较长序列上保持连贯性的复杂性,我们仅看到了由AI生成的较短视频。在Google 2024 I/O演示文稿中,展示了Veo创建更长,更复杂的视频的惊人能力。

图4. 在谷歌2024 I/O大会上展示的更长Veo视频中的帧。

Veo是如何工作的?

像许多其他AI模型一样,Veo站在巨人的肩膀上。它借鉴了之前的进步,如生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet以及谷歌专有的Transformer架构和Gemini。此外,为了提高Veo准确解读提示的能力,其训练数据集中每个视频的字幕都更加详细。 

根据谷歌分享的粗略模型工作流程,以下是Veo的工作方式:

  • 输入提示:您提供一个文本提示,以及可选的图像提示。
  • 编码:文本提示由UL2编码器处理,图像提示由图像编码器处理。
  • 嵌入式提示:文本和图像编码器的输出被组合成一个单一的嵌入式提示。
  • 潜在扩散模型:嵌入式提示和一个嘈杂的压缩视频被传递给该模型,该模型使用它们生成一个压缩视频。Veo使用高质量的压缩视频表示,称为潜在变量(latents),以提高效率,同时保持质量。
  • 解码:最后一步是从压缩视频中解码1080p视频输出。
图5. Veo的工作原理。

一个引人注目的电影制作案例研究

为了测试Veo的能力,谷歌与电影制作人唐纳德·格洛弗(Donald Glover)及其创意工作室Gilga合作。他们使用Veo探索各种创意技巧,包括动态跟踪镜头,这需要精确的运动和一致的构图。 

图6. 在电影制作过程中使用Veo。

传统上,电影制作人面临着时间和资源限制。借助Veo,格洛弗和他的团队可以快速试验和生成复杂的镜头,从而在电影制作过程中提供更大的灵活性和创新性。

借助Veo,格洛弗和他的团队可以在实际拍摄之前快速试验和生成复杂的镜头。例如,他们可以测试各种动态跟踪镜头,看看它们的效果如何,并根据需要进行调整。这种预可视化过程帮助他们完善想法,并确保镜头能够按预期工作,最终减少实际拍摄所需的次数。他们能够创建一个引人注目的案例研究,以展示Veo改变电影行业的潜力。它提供了一种更快、更有效的方式来实现创意愿景。

Veo在各个行业的实际应用 

Veo先进的视频生成能力在许多行业都有实际应用。在广告领域,它可以快速为目标受众制作定制的高质量商业广告,从而节省时间和制作成本。在教育领域,Veo可以创建引人入胜的教学视频,使复杂的概念更容易理解。 

企业可以使用 Veo 进行培训和企业沟通。医疗保健专业人员可以使用 Veo 模拟医疗程序以进行培训。在虚拟活动和会议方面,Veo 可以创建逼真的场地和舞台模拟,让与会者无论身在何处都能获得引人入胜的互动体验。组织者可以扩大覆盖范围,并为未来的活动获得宝贵的见解。 感谢 Veo,无数的机会得以开启。

当 AI 模型有可能触及不同的行业时,务必牢记安全和符合伦理道德的 AI。为了实现更广泛的应用并确保负责任的使用,Google 实施了多项安全措施。Veo 创建的视频会使用 SynthID 添加水印,SynthID 是一种用于为 AI 生成的内容添加水印和识别 AI 生成的内容的工具。SynthId 确保了透明度,并有助于降低隐私、版权和偏见风险。 除此之外,所有生成的视频都通过安全过滤器和记忆检查流程。 这些保障措施使 Veo 成为一种有价值且符合伦理道德的工具,可支持负责任的创新视频制作。

在哪里可以访问 Veo

在接下来的几周内,Google 将开始通过 labs.google 上的新工具 VideoFX 向部分创作者提供 Veo 的一些突破性功能。 这一举措让用户可以提前体验 Veo 的高级视频生成功能,让创作者有机会尝试其创新功能。Veo 的候补名单目前已开放,邀请感兴趣的创作者注册并在他们的项目中使用 Veo 的强大工具。

关于 DeepMind 2024 年生成式 AI 更新的更多信息

除了 Veo 之外,DeepMind 还推出了 2024 年生成式 AI 的多项前沿更新。 其中一项更新是 Imagen 3,这是他们迄今为止最先进的文本到图像模型。 Imagen 3 擅长创建逼真的图像。 它可以深入理解自然语言提示,并捕捉复杂的细节,同时最大限度地减少视觉伪影。

图 7. 使用 Imagen 3 生成的图像。

DeepMind 还开发了 Lyria,这是其用于 AI 音乐生成的最先进的模型。 作为这项工作的一部分,DeepMind 创建了一套名为 Music AI Sandbox 的音乐 AI 工具。 这些工具使音乐家和制作人能够探索音乐创作和声音转换方面的新创意。

图 8. DeepMind 的 AI 音乐工具的示例 UI。

与 Veo 类似,DeepMind 也针对其其他更新实施了多项安全措施。 SynthID 将在这些更新中用作水印工具和识别 AI 生成的内容。 DeepMind 的这些更新有望通过提供用于创建高质量视觉和音频内容的高级、高效和负责任的工具来改变各个行业。

驾驭生成式 AI 的下一阶段

DeepMind 2024 年在生成式 AI 方面的进步,包括 Veo、Imagen 3 和 Lyria,标志着 AI 能力的显着飞跃。 Veo 凭借其通过简单提示生成高质量 1080p 视频的能力改变了视频创作,使其成为电影制作人和内容创作者的多功能工具。 Imagen 3 在生成逼真的图像方面表现出色,而 Lyria 通过先进的 AI 工具为音乐生成带来了新的可能性。

这些技术有望通过提供高效且负责任的工具来创建高质量的视觉和音频内容,从而改变各个行业。 凭借 SynthID 等安全措施确保合乎道德的使用,DeepMind 将继续扩展 AI 的边界,为未来的创新应用铺平道路。

访问我们的 GitHub 存储库并加入我们的 社区,深入了解 AI。 浏览我们的解决方案页面,了解 AI 如何应用于制造业农业

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板