Google Genie 3 用 AI 让你的 3D 世界栩栩如生
DeepMind 的 Genie 3 AI 世界模型将文本或图像提示转换为 3D 环境。这一进展标志着向人类智能迈出的又一步。

2025 年 8 月 5 日,Google DeepMind 发布了其 Genie 模型的最新版本,即 Genie 3。这是一个全新的 AI 模型,可以将用户的文本提示转换为动态的交互式环境。
这些环境(或称 AI 世界)让用户能够像在电子游戏中一样实时导航并与之交互。用户还可以通过提供额外的文本提示来扩展或修改环境,从而实现无需重启模拟即可进行的即时更改。
最新的 Google Genie 模型之所以具有重大影响力,是因为它可用于 train AI 智能体。这涉及教会 AI agents 使用数据和反馈来做出决策或执行任务。通过使用模拟的 3D 环境而不是现实世界,研究人员可以避免现实世界训练中的许多挑战、成本和风险。
Google Genie 3 还可以模拟复杂的场景,例如测试一辆 autonomous car 在恶劣天气下的驾驶情况,或者穿梭于多山地形的翼装飞行。
在本文中,我们将探索 Google Genie 3 及其功能。让我们开始吧!

图 1. 显示翼装飞行的 Genie 3 模拟帧。(Source)
Link to this sectionGoogle Genie 模型简史#
在深入探讨 Google DeepMind 的 Genie 模型之前,让我们更好地理解什么是世界模型。
世界模型是 AI 系统,它们从文本、图像、视频和运动 datasets 中学习物理、运动和空间关系等现实世界规则。这使它们能够创建逼真的场景并 predict 场景如何演变。Genie 模型就是此类系统的范例。
以下是为 Genie 3 铺平道路的早期 Google Genie 模型概览:
-
Genie 1: Genie 1(通常简称为 Google Genie)是 Google DeepMind 首个能够创建交互式虚拟环境的 AI 世界模型。用户可以用文本、图像、照片甚至草图来描述一个世界,Genie 就会生成它,并让他们控制场景内的动作。它旨在处理随时间变化的视频数据、预测下一帧,并将用户的输入转化为世界内的动作。
-
Genie 2: 在 Google Genie 的能力基础上,Genie 2 可以创建多种细节丰富的交互式 3D 世界。作为一种世界模型,它能模拟虚拟环境,并对跳跃、游泳或移动物体等动作做出逼真反应。它通过海量视频集进行训练,具有逼真的物体交互和栩栩如生的人物动作。
Link to this section什么是 Genie 3?Google 的新 AI 模型#
在早期 Genie 模型的基础上,Genie 3 是该系列中最新且最先进的模型。它特别借鉴了能够生成新虚拟环境的 Genie 2,以及 Google DeepMind 最新的视频生成模型 Veo 3。Veo 3 展示了对物理学以及物体如何在现实世界中相互作用的深刻理解。
虽然 Veo 3 使用硬编码的物理引擎,但 Google Genie 3 使用一种称为自监督学习的方法自学物理定律。这是一种 AI learning technique,AI 模型通过生成自己的学习信号,从无标签数据中学习模式和关系。
Google Genie 3 的自监督学习能力对于训练 AI 智能体或 AI 机器人等 AI 系统处理各种任务至关重要。事实上,Google DeepMind 的研究人员认为 Genie 3 是迈向创建 Artificial General Intelligence (AGI) 的重要一步。

图 2. 使用 Google Genie 3 模拟控制机器人漫游车的示例。(Source)
AGI 是一种理论上的 AI 形式,它能够理解和学习任何任务或主题,并将这些知识应用到不同情况中,就像人类一样。与当今为特定任务构建且难以将技能迁移到新问题的 AI 模型不同,AGI 将能够在广泛的背景下进行适应和学习。
Link to this sectionGoogle Genie 3 构建 AI 世界的关键功能#
以下是 Genie 3 支持的一些关键功能:
-
文本转 3D 世界生成: 它能将简单的文本提示(例如“一个机器人在街上行走”)转化为带有基本移动控制的可玩类 3D 环境。
-
可提示的世界事件: 用户可以通过输入新命令动态改变环境(例如:在街道上添加雨天效果)。
-
视觉记忆: Genie 3 可以记住留在环境中的物体,并让你稍后重新访问它们,记忆时长约为一分钟。
-
流畅且连贯的视频输出: 它能维持 720p 分辨率下 24 fps (frames per second) 的视频输出,且与 Genie 2 相比,参与度更高。

图 3. Google Genie 3 可以生成比 Genie 2 产生的结果持续时间更长的输出。(Source)
Link to this section从教育到游戏:Google DeepMind Genie 3 的应用#
Google Genie 3 可以使学习、研究和训练变得更加身临其境且引人入胜。例如,在课堂上,它可以让学生探索古代城市或在 space 中旅行,从而使历史、科学或地理课栩栩如生。同样,对于 AI 开发人员,它提供了逼真的虚拟世界来练习策略、应对挑战并提高决策能力。
科学家也可以利用它创建受控模拟,用于测试想法、研究生态系统或观察物体的行为。另一个有趣的应用程序是在视频 game development 领域。游戏开发人员可以将文本提示转换为详细的游戏世界,从而加快开发速度并减少对大型团队的需求。

图 4. 使用 Genie 3 可以设计出有趣、色彩缤纷且可交互的游戏。(Source)
Link to this sectionGoogle Genie 3 作为世界模型的局限性#
虽然 Google Genie 3 提供了许多功能和优势,但也必须考虑其不足之处。
以下是一些需要考虑的限制:
-
有限的动作范围: 虽然你可以触发虚拟世界中的许多事件,但并非所有事件都由智能体本身执行。智能体可以直接执行的动作仍然有限。
-
与其他智能体交互: 在同一环境中创建多个独立智能体之间的逼真交互仍在开发中。
-
现实世界准确性: Google Genie 3 尚无法以完美的地理精度重建现实世界地点。
Link to this section关键要点#
Google Genie 3 代表了使用 AI 创建逼真、交互式 3D 世界的重大进步。它能够通过简单的文本提示将想法变为现实、模拟物理定律,甚至在安全的虚拟空间中训练 AI 系统。
虽然它仍有局限性,但它为研究、游戏和 AI 开发开辟了许多可能性。它也是迈向能像人类一样思考和学习的 AGI 系统的关键一步。
查看我们的 GitHub repository 以了解更多关于 AI 的信息。加入我们的活跃 community,发现 AI in the retail 行业和 vision AI in manufacturing 等领域的创新。要立即开始使用计算机视觉,请查看我们的 licensing options。






