谷歌精灵 3 利用人工智能让您的 3D 世界栩栩如生

阿比拉米-维纳

4 分钟阅读

2025 年 8 月 15 日

DeepMind 的 Genie 3 人工智能世界模型能将文本或图像提示转换成三维环境。这一进步标志着向类人智能又迈进了一步。

2025 年 8 月 5 日,谷歌 DeepMind 发布了最新版本的精灵模型,即精灵 3。这是一种新的人工智能模型,可以将用户的文字提示转化为动态的交互环境。 

这些环境或人工智能世界可以让用户实时导航并与之互动,就像在视频游戏中一样。用户还可以通过提供额外的文字提示来扩展或修改环境,从而在不重新启动模拟的情况下实现即时更改。 

最新的 "精灵 "谷歌模型之所以特别有影响力,是因为它可以用来训练人工智能代理。这包括利用数据和反馈教人工智能代理做出决策或执行任务。通过使用模拟三维环境而不是真实世界,研究人员可以避免真实世界训练中的许多挑战、成本和风险。

Google Genie 3 还能模拟复杂的场景,例如测试自动驾驶汽车在恶劣天气中的行驶,或测试翼装飞行器在山区地形中的滑行。 

本文将探讨 Google Genie 3 及其功能。让我们开始吧!

图 1.Genie 3 模拟中显示翼装滑翔的一帧。(资料来源)

谷歌精灵模型简史

在深入了解 Google DeepMind 的 Genie 模型之前,我们先来了解一下什么是世界模型。 

世界模型是一种人工智能系统,它能从文本、图像、视频和运动数据集中学习物理、运动和空间关系等现实世界的规则。这样,它们就能创建逼真的场景,并预测场景如何演变。精灵模型就是此类系统的代表。

以下是为 Genie 3 铺路的早期 Google Genie 型号的简要介绍:

  • 精灵 1:精灵 1 通常简称为谷歌精灵,是谷歌 DeepMind 的第一个人工智能世界模型,能够创建交互式虚拟环境。用户可以用文字、图像、照片甚至草图来描述一个世界,精灵就会生成它,让用户控制场景中的动作。它的设计目的是随时间推移处理视频数据,预测下一帧画面,并将用户输入转化为场景中的动作。
  • 精灵 2:在谷歌精灵功能的基础上,精灵 2 可以创建各种详细的交互式 3D 世界。作为一个世界模型,它可以模拟虚拟环境,并对跳跃、游泳或移动物体等动作做出逼真的反应。通过对大量视频的训练,它可以实现逼真的物体互动和逼真的人物动作。

什么是精灵 3?谷歌新的人工智能模型

在早期精灵模型的基础上,精灵 3 是该系列中最新、最先进的一款。它尤其以精灵 2 和Veo 3 为基础,精灵 2 可以生成新的虚拟环境,而Veo 3 则是谷歌 DeepMind 的最新视频生成模型。Veo 3 展示了对物理以及物体在现实世界中如何相互作用的深刻理解。

Veo 3 使用的是硬编码物理引擎,而 Google Genie 3 则使用一种称为自我监督学习的方法自学物理原理。这是一种人工智能学习技术,人工智能模型通过生成自己的学习信号,从未标明的数据中学习模式和关系。 

谷歌精灵 3 的自我监督学习能力对于训练人工智能系统(如人工智能代理或人工智能机器人)处理各种任务至关重要。事实上,谷歌 DeepMind 的研究人员认为,精灵 3 是迈向人工通用智能(AGI)的重要一步。 

图 2.使用 Google Genie 3 模拟控制机器人漫游车的示例。(资料来源)

AGI 是人工智能的一种理论形式,它能理解和学习任何任务或主题,并能像人类一样在不同情况下应用这些知识。当今的人工智能模型是为特定任务而构建的,很难将其技能转移到新问题上,而 AGI 则不同,它能够在各种情况下适应和学习。

与构建人工智能世界相关的 Google Genie 3 主要功能

以下是 Genie 3 支持的一些主要功能:

  • 文本到三维世界的生成:它能将简单的文字提示(如 "一个机器人在街上行走")转化为可玩的三维环境,并带有基本的移动控制功能。
  • 可提示的世界事件:用户可以通过输入新命令(例如,在街道上增加雨量)来动态改变环境。
  • 视觉记忆:精灵 3 可以记住环境中遗留的物品,并让你稍后重访这些物品,持续时间约为一分钟。
  • 流畅稳定的视频输出:与 Genie 2 相比,它能在 720p 分辨率下保持 24fps(每秒帧数)的视频输出,而且参与时间更长。
图 3.谷歌精灵 3 生成的输出比精灵 2 生成的输出更持久(资料来源)

从教育到游戏:谷歌 DeepMind 的精灵 3 的应用

Google Genie 3 可以让学习、研究和培训更加身临其境、引人入胜。例如,在课堂上,它可以让学生探索古代城市或遨游太空,从而使历史、科学或地理栩栩如生。同样,对于人工智能开发人员来说,它可以提供逼真的虚拟世界,让他们练习策略、应对挑战和提高决策技能。

科学家还可以用它来创建受控模拟,以测试想法、研究生态系统或观察物体的行为。另一个有趣的应用是视频游戏开发。游戏开发人员可以将文字提示转化为详细的游戏世界,从而加快开发速度,减少对大型团队的需求。

图 4.使用 Genie 3 可以设计出有趣、多彩的互动游戏(资料来源)

谷歌精灵 3 作为世界模型的局限性

虽然 Google Genie 3 提供了许多功能和优点,但也要考虑到它的缺点。 

以下是一些需要考虑的限制因素:

  • 行动范围有限:虽然您可以在虚拟世界中触发许多事件,但并非所有事件都由代理本身执行。代理可以直接执行的操作仍然有限。
  • 与其他代理互动:在同一环境中创建多个独立代理之间的真实互动仍是一项正在进行的工作。
  • 真实世界的准确性:Google Genie 3 还不能以完美的地理精度再现真实世界的位置。

主要收获

谷歌精灵 3 代表着人工智能在创建逼真的交互式 3D 世界方面的重大进步。它可以通过简单的文字提示将创意变为现实,模拟物理,甚至在安全的虚拟空间中训练人工智能系统。 

虽然它仍有局限性,但它为研究、游戏和人工智能开发开辟了许多可能性。这也是向能像人类一样思考和学习的 AGI 系统迈出的关键一步。

查看我们的GitHub 存储库,了解有关人工智能的更多信息。加入我们活跃的社区,发现零售业中的人工智能制造业中的视觉人工智能等领域的创新。要立即开始使用计算机视觉,请查看我们的许可选项

让我们共同打造人工智能的未来

开始您的未来机器学习之旅

免费开始
链接复制到剪贴板