了解 Meta Movie Gen 如何重新定义视频和声音创作。了解该模型如何提供精确的视频编辑并支持个性化媒体创作。

了解 Meta Movie Gen 如何重新定义视频和声音创作。了解该模型如何提供精确的视频编辑并支持个性化媒体创作。

无论您是充满抱负的电影制作人,还是喜欢为观众制作视频的内容创作者,拥有能够扩展您创造力的 AI 工具总是有帮助的。最近,Meta 推出了其最新的生成式视频模型,称为 Meta Movie Gen。
到 2033 年,全球媒体和娱乐领域的 生成式 AI 市场 预计将达到 115.7 亿美元,Runway、OpenAI 和 Meta 等公司在突破性创新方面处于领先地位。特别是 Meta Movie Gen,非常适合电影制作、视频内容创作和数字故事讲述等应用,比以往任何时候都更容易通过高质量的 AI 生成视频将创意变为现实。在本文中,我们将探讨 Meta Movie Gen 及其工作原理。我们还将仔细研究它的一些应用。让我们开始吧!

在讨论 Meta Movie Gen 是什么之前,让我们先来看看它是如何产生的。
Meta 与生成式 AI相关的研究工作始于他们的 Make-A-Scene 系列模型。这项研究侧重于一种多模态生成式 AI 方法,该方法可帮助艺术家和梦想家将他们的想象力变为现实。艺术家可以输入图像、音频、视频或 3D 动画,以获得他们想要的图像输出。创新的下一个飞跃来自 扩散模型,例如 Llama Image Foundation 模型 (Emu),这使得生成更高质量的图像和视频以及进行图像编辑成为可能。

Movie Gen 是 Meta 对生成式 AI 研究的最新贡献。它结合了所有先前提到的模态,并允许更精细的控制,以便人们可以以更具创意的方式使用这些模型。Meta Movie Gen 是用于生成不同类型媒体(包括文本到视频、文本到音频和文本到图像)的基础模型集合。它由四个模型组成,这些模型是在许可和公开可用的数据集的组合上训练的。
以下是这些模型的快速概述:
创建和训练 Movie Gen Video模型涉及几个关键过程。第一步包括收集和准备视觉数据,包括图像和视频片段,主要针对人类活动进行筛选,以确保质量、运动和相关性。然后将数据与文本标题配对,文本标题解释了每个场景中发生的事情。这些标题是使用Meta的LLaMa3-Video模型生成的,提供了关于每个场景内容的丰富细节,从而增强了模型的视觉叙事能力。

训练过程首先是模型学习将文本转换为低分辨率图像。然后,它通过结合文本到图像和文本到视频的训练,使用越来越高质量的视觉效果,逐步创建完整的视频片段。
一种名为时间自编码器 (TAE) 的工具压缩视频,以有效地管理大量数据。微调进一步提高了视频质量,一种称为模型平均的方法(它结合了多个模型输出,以获得更平滑、更一致的结果)确保了更高的输出一致性。 最后,最初为 768p 的视频使用空间升采样器技术升级到清晰的 1080p 分辨率,该技术通过添加像素数据来提高图像分辨率,从而获得更清晰的视觉效果。 结果是高质量、详细的视频输出。
Meta Movie Gen 模型主要支持四种不同的能力。让我们仔细看看每一种能力。
Meta Movie Gen 可以生成高质量的视频。这些视频片段最长可达 16 秒,并以 16 fps(帧/秒)的速度运行,从而创建逼真的视觉效果,捕捉文本提示中的运动、交互和相机角度。与 130 亿参数的音频模型配对后,它可以生成同步音频,包括环境声音、弗雷音效和音乐,以匹配视觉效果。
这种设置确保了无缝、逼真的体验,在各种场景和提示中,视觉和音频都保持一致和逼真。例如,这些模型被用于创建泰国走红的小河马 Moo Deng 的视频片段。

Meta Movie Gen 模型的另一个有趣的功能是个性化视频生成。用户可以提供一个人的图像和一个文本提示,描述应如何生成视频剪辑,从而生成一个包含参考人物并包含文本提示中指定的丰富视觉细节的视频。该模型使用两个输入(图像和文本)来保持人物的独特外观和自然的身体动作,同时准确地遵循提示中描述的场景。

使用 Movie Gen Edit 模型,用户可以提供视频剪辑和文本提示作为输入,以创造性的方式编辑视频。该模型结合了视频生成和高级图像编辑功能,可以执行非常具体的编辑,例如添加、删除或替换元素。它还可以执行全局更改,例如修改视频剪辑的背景或整体风格。但使该模型真正独特的是它的精确性:它可以仅针对需要编辑的特定像素,而保持其余部分不变。这最大程度地保留了原始内容。

除了生成式人工智能模型外,Meta 还推出了 Movie Gen Bench,这是一套用于测试生成式人工智能模型性能的基准测试工具。它带有两个主要工具:Movie Gen Video Bench 和 Movie Gen Audio Bench。两者都旨在测试视频和音频生成的不同方面。
以下是这两种工具的概览:

既然我们已经介绍了 Meta Movie Gen 模型是什么以及它们的工作原理,现在让我们探讨它们的一个实际应用。
Meta 的 Movie Gen 最令人兴奋的用途之一是它如何通过 AI 驱动的视频和 音频创建来改变 电影制作。借助 Movie Gen,创作者可以从简单的 文本提示生成高质量的视觉效果和声音,从而开辟了讲述故事的新途径。
事实上,Meta 与 Blumhouse 和一群电影制作人合作,收集他们关于 Movie Gen 如何最好地支持创作过程的反馈。 Aneesh Chaganty、Spurlock Sisters 和 Casey Affleck 等电影制作人测试了该工具捕捉情绪、基调和视觉方向的能力。他们发现这些模型有助于激发新的想法。
这个试点项目表明,虽然Movie Gen不能取代传统的电影制作,但它为导演提供了一种快速且创造性地试验视觉和音频元素的新方法。电影制作人也很欣赏该工具的编辑功能如何让他们更自由地处理背景声音、效果和视觉风格。

Meta Movie Gen 是使用生成式 AI 从简单的文本描述中制作高质量视频和声音方面向前迈出的一步。该工具可帮助用户轻松创建逼真且自定义的视频。凭借精确的视频编辑和个性化媒体生成等功能,Meta Movie Gen 提供了一个灵活的工具集,为故事讲述、电影制作及其他领域开辟了新的可能性。通过简化创建详细且有用的视觉效果的过程,Meta Movie Gen 正在改变视频的制作和使用方式,并在不同领域为 AI 驱动的内容创建树立了新标准。
要了解更多信息,请访问我们的 GitHub 仓库,并与我们的 社区 互动。在我们的解决方案页面上探索 自动驾驶汽车 和 农业 中的 AI 应用。🚀