Meta Movie Gen:重塑内容创作
了解 Meta Movie Gen 如何重新定义视频和声音创作。学习该模型如何提供精准的视频编辑功能并支持个性化媒体创作。

无论你是有抱负的电影制作人,还是喜欢为观众制作视频的内容创作者,拥有能够扩展你创造力的 AI 工具总是有帮助的。最近,Meta 发布了其最新的生成式视频模型,即 Meta Movie Gen。
全球媒体和娱乐领域的 生成式 AI 市场 预计到 2033 年将达到 115.7 亿美元,Runway、OpenAI 和 Meta 等公司在突破性创新方面处于领先地位。Meta Movie Gen 特别适合电影制作、视频内容创作和数字叙事等应用,让你比以往任何时候都更容易通过高质量的 AI 生成视频将创意愿景变为现实。在本文中,我们将探索 Meta Movie Gen 及其工作原理。我们还将更深入地了解它的一些应用。让我们开始吧!

图 1。使用 Meta Movie Gen 生成的视频片段截图。
Link to this section什么是 Meta Movie Gen?#
在我们讨论 Meta Movie Gen 是什么之前,让我们先来看看它是如何诞生的。
Meta 在 生成式 AI 方面的研究工作始于他们的 Make-A-Scene 系列 模型。这项研究专注于一种 多模态 生成式 AI 方法,旨在帮助艺术家和创想者将想象力变为现实。艺术家可以输入图像、音频、视频或 3D 动画 来获得他们想要的图像输出。创新的下一个飞跃来自于 扩散模型,例如 Llama 图像基础模型 (Emu),这使得生成更高质量的图像和视频成为可能,并实现了图像编辑功能。

图 2。使用 Make-A-Scene 的草图和文本输入获得生成图像的示例。
Movie Gen 是 Meta 对 生成式 AI 研究的最新贡献。它结合了前面提到的所有模态,并允许更细粒度的控制,以便人们能以更多创造性的方式使用这些模型。Meta Movie Gen 是一系列用于生成不同类型媒体的基础模型,包括文本转视频、文本转音频和文本转图像。它由四个模型组成,这些模型是在许可数据和公开可用的 数据集 的组合上训练而成的。
以下是这些模型的简要概述:
- Movie Gen Video 模型: 一个 300 亿参数的模型,可从文本提示生成高质量视频。
- Movie Gen Audio 模型: 一个 130 亿参数的模型,可以创建与视频内容同步的音轨。
- 个性化 Movie Gen Video 模型: 它可基于文本提示和单张图像生成特定个人的视频,同时保留他们的外貌特征。
- Movie Gen Edit 模型: 该模型允许对真实和虚构视频进行基于文本的详细视频编辑。
Link to this section训练 Meta Movie Gen 视频模型#
创建和 训练 Movie Gen Video 模型涉及多个关键过程。第一步涉及收集和 准备视觉数据,包括主要是针对质量、运动和相关性筛选过的人类活动图像和视频片段。然后,这些 数据 与解释每个场景中发生的事情的文本说明配对。这些说明是使用 Meta 的 LLaMa3-Video 模型生成的,提供了关于每个场景内容的丰富细节,从而增强了模型的视觉叙事能力。

图 3。Movie Gen Video 模型的预训练数据整理流水线概述。
训练 过程始于模型学习将文本转换为低分辨率图像。然后,它通过 文本转图像 和文本转视频训练的组合,使用日益高质量的视觉效果,逐步演进到创建完整的视频片段。
一种名为时间自动编码器 (TAE) 的工具压缩了视频,以有效地处理大量数据。微调 进一步提高了视频质量,而一种称为模型平均的方法(它结合了多个模型输出以获得更平滑、更一致的结果)确保了更高的输出一致性。最后,通过空间上采样技术将最初 768p 的视频放大到清晰的 1080p 分辨率,该技术通过添加像素数据来增加图像分辨率以获得更清晰的视觉效果。最终呈现出高质量、细节丰富的视频输出。
Link to this section探索 Meta Movie Gen 的能力#
Meta Movie Gen 模型主要支持四种不同的能力。让我们仔细看看每一种。
Link to this section视频和音频生成#
Meta Movie Gen 可以生成高质量视频。这些视频片段最长可达 16 秒,以 16 fps(每秒帧数)运行,通过文本提示创建捕捉运动、交互和 摄像机 角度的逼真视觉效果。与 130 亿参数的音频模型配对后,它还可以产生同步音频,包括环境声音、拟音效果和音乐,以匹配视觉效果。
这种设置确保了无缝、逼真的体验,视觉和音频在各种场景和提示中保持对齐和真实。例如,这些模型被用于制作泰国网红侏儒河马 Moo Deng 的视频片段。

图 4。使用 Meta Movie Gen 制作的 Moo Deng 视频片段截图。
Link to this section个性化视频生成#
Meta Movie Gen 模型的另一个有趣能力是个性化视频生成。用户可以提供一个人的图像和描述视频片段应如何生成的文本提示,从而得到一个既包含参考人物又结合了文本提示中指定的丰富视觉细节的视频。该模型同时使用这两个输入(图像和文本)来保持人物独特的样貌和自然的 身体动作,同时准确地遵循提示中描述的场景。

图 5。该模型个性化视频生成能力的示例。
Link to this section精确的视频编辑#
使用 Movie Gen Edit 模型,用户可以提供视频片段和文本提示作为输入,以创造性的方式编辑视频。该模型将视频生成与高级图像编辑相结合,以执行非常具体的编辑,例如添加、移除或替换元素。它还可以执行全局更改,如修改视频片段的背景或整体风格。但使该模型真正独特的是其精度:它可以仅针对需要编辑的特定像素,而保持其余部分不变。这尽可能地保留了原始内容。

图 6。Movie Gen Edit 模型的视频编辑能力的各种示例。
Link to this sectionMeta Movie Gen 的基准测试工具#
除了 生成式 AI 模型外,Meta 还推出了 Movie Gen Bench,这是一套用于测试 生成式 AI 模型性能的基准测试工具。它配备了两个主要工具:Movie Gen Video Bench 和 Movie Gen Audio Bench。两者都旨在测试视频和音频生成的不同方面。
以下是这两个工具的概览:
- Movie Gen Video Bench: 它包含 1003 个提示,涵盖了各种测试类别,如人类活动、动物、自然风光、物理,以及不寻常的主题和活动。这个评估基准之所以特别有价值,是因为它涵盖了运动水平,这确保了视频生成模型能够同时针对快节奏和慢节奏序列进行测试。
- Movie Gen Audio Bench: 它旨在通过 527 个提示测试音频生成能力。这些提示与生成的视频配对,以评估模型在将音效和音乐与视觉内容同步方面的表现。

图 7。 该图表显示了评估提示的分解,左侧是概念列表,右侧是常用名词和动词的词云。
Link to this sectionMeta Movie Gen 的实际应用#
既然我们已经介绍了 Meta Movie Gen 模型是什么以及它们是如何工作的,让我们来探索它们的其中一个实际应用。
Link to this section电影制作中的 Movie Gen AI 创新#
One of the most exciting uses of Meta's Movie Gen is how it can transform filmmaking through AI-powered video and audio creation. With Movie Gen, creators can generate high-quality visuals and sounds from simple text prompts, opening up new ways to tell stories.
事实上,Meta 与 Blumhouse 及一群电影制作人合作,收集了他们关于 Movie Gen 如何最好地支持 创意过程 的反馈。像 Aneesh Chaganty、Spurlock Sisters 和 Casey Affleck 等电影制作人测试了该工具捕捉情绪、基调和视觉指导的能力。他们发现这些模型有助于激发新想法。
这个试点项目表明,虽然 Movie Gen 并不能取代传统的电影制作,但它为导演提供了一种快速且富有创造性地尝试视觉和音频元素的新方法。电影制作人还赞赏该工具的编辑功能让他们能够更自由地尝试背景声音、效果和视觉风格。

图 8。使用 Meta Movie Gen 创作的短片截图。
Link to this section关键要点#
Meta Movie Gen 是利用生成式 AI 从简单的文本描述制作高质量视频和声音的一大进步。该工具帮助用户轻松创建逼真且自定义的视频。凭借精确视频编辑和个性化媒体生成等功能,Meta Movie Gen 提供了一套灵活的工具集,为叙事、电影制作等领域开启了崭新的可能性。通过简化创建详细且实用的视觉效果的过程,Meta Movie Gen 正在改变视频在不同领域的制作和使用方式,并为 AI 驱动的内容创作设定了新标准。
要了解更多信息,请访问我们的 GitHub 存储库,并与我们的社区互动。在我们的解决方案页面上探索 AI 在自动驾驶汽车和农业中的应用。🚀






