敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

Google Genie 3 通过 AI 让您的 3D 世界栩栩如生

Abirami Vina

4 分钟阅读

2025年8月15日

DeepMind 的 Genie 3 AI 世界模型将文本或图像提示转换为 3D 环境。这一进步标志着朝着类人智能迈出的又一步。

2025 年 8 月 5 日,Google DeepMind 发布了其最新版本的 Genie 模型,称为 Genie 3。这是一种新型 AI 模型,可以将用户的文本提示转换为动态的交互式环境。 

这些环境或 AI 世界,使用户可以实时导航并与之交互,就像在视频游戏中一样。用户还可以通过提供额外的文本提示来扩展或修改环境,从而实现即时更改而无需重新启动模拟。 

最新的 Genie Google 模型特别有影响力的地方在于,它可用于训练 AI 代理。这涉及到使用数据和反馈来教导 AI 代理 做出决策或执行任务。通过使用模拟 3D 环境而不是真实世界,研究人员可以避免真实世界训练中的许多挑战、成本和风险。

Google Genie 3 还可以模拟复杂场景,例如测试自动驾驶汽车在恶劣天气中行驶或翼装飞行穿越山区地形。 

在本文中,我们将探讨 Google Genie 3 及其功能。让我们开始吧!

图 1. Genie 3 模拟的翼装飞行画面。(来源

Google Genie 模型简史

在深入了解Google DeepMind的Genie模型之前,让我们更好地了解什么是世界模型。 

世界模型是一种 AI 系统,可以从文本、图像、视频和运动数据集中学习物理、运动和空间关系等真实世界的规则。这使它们能够创建逼真的场景并预测它们如何演变。Genie 模型就是此类系统的示例。

以下是为 Genie 3 铺平道路的早期 Google Genie 模型的快速一览:

  • Genie 1: Genie 1,通常简称为 Google Genie,是 Google DeepMind 的第一个能够创建交互式虚拟环境的 AI 世界模型。用户可以用文本、图像、照片甚至草图来描述一个世界,Genie 就会生成它,让他们控制场景中的动作。它旨在随着时间的推移处理视频数据,预测下一帧,并将用户输入转换为世界中的动作。
  • Genie 2: 在 Google Genie 的基础上,Genie 2 可以创建各种详细的交互式 3D 世界。作为一个世界模型,它模拟虚拟环境并对跳跃、游泳或移动物体等动作做出真实的反应。它在大量视频的训练下,具有逼真的物体交互和栩栩如生的人物动作。

什么是 Genie 3?Google 的新 AI 模型

Genie 3 在早期 Genie 模型的基础上构建,是该系列中最新、最先进的模型。它特别建立在 Genie 2 的基础上,Genie 2 可以生成新的虚拟环境,以及 Veo 3,Google DeepMind 最新的视频生成模型。Veo 3 展示了对物理学以及物体如何在现实世界中相互作用的深刻理解。

虽然 Veo 3 使用硬编码的物理引擎,但 Google Genie 3 使用一种称为自监督学习的方法自学物理学的工作原理。 这是一种 AI 学习技术,其中 AI 模型通过生成自己的学习信号从未标记的数据中学习模式和关系。 

Google Genie 3 的自监督学习能力对于训练 AI 系统(例如 AI 代理或 AI 机器人)来处理各种任务至关重要。事实上,Google DeepMind 的研究人员将 Genie 3 视为创建通用人工智能 (AGI)的重要一步。 

图 2. 使用 Google Genie 3 模拟控制机器人漫游车的示例。(来源

通用人工智能 (AGI) 是一种理论上的人工智能形式,它可以理解和学习任何任务或主题,并将该知识应用于不同的情况,就像人类一样。与当今为特定任务构建且难以将其技能转移到新问题的人工智能模型不同,AGI 将能够在广泛的上下文中进行适应和学习。

Google Genie 3在构建AI世界方面的关键特性

以下是Genie 3支持的一些主要功能:

  • 文本到3D世界生成: 它可以将简单的文本提示(例如,“一个机器人在街上行走”)转换为具有基本移动控制的可玩3D环境。
  • 可提示的世界事件: 用户可以通过键入新命令来动态更改环境(例如,在街道上添加雨水)。
  • 视觉记忆: Genie 3 可以记住环境中留下的物体,让你稍后重新访问它们,持续约一分钟。
  • 流畅且一致的视频输出: 它可以保持 24 fps(帧每秒)在 720p 分辨率下的视频输出,与 Genie 2 相比,参与度更高。
图 3. Google Genie 3 可以生成比 Genie 2 持续时间更长的输出。(来源

从教育到游戏:Google DeepMind的Genie 3的应用

Google Genie 3 可以使学习、研究和培训更具沉浸感和吸引力。例如,在课堂上,它可以通过让学生探索古代城市或穿越太空,使历史、科学或地理栩栩如生。同样,对于人工智能开发人员来说,它提供了逼真的虚拟世界来练习策略、应对挑战和提高决策能力。

科学家还可以使用它来创建受控模拟,以测试想法、研究生态系统或观察物体的行为。另一个有趣的应用是在视频游戏开发中。游戏开发者可以将文本提示转化为详细的游戏世界,从而加快开发速度并减少对大型团队的需求。

图 4. 使用 Genie 3 可以设计有趣、色彩丰富且具有互动性的游戏。(来源

Google Genie 3 作为世界模型的局限性

虽然 Google Genie 3 提供了许多特性和优势,但重要的是也要考虑它的缺点。 

以下是一些需要考虑的局限性:

  • 有限的作用范围: 虽然您可以在虚拟世界中触发许多事件,但并非所有事件都由代理本身执行。代理可以直接执行的动作仍然有限。
  • 与其他代理交互: 在同一环境中创建多个独立代理之间逼真的交互仍然是一项正在进行中的工作。
  • 真实世界的准确性: Google Genie 3 尚无法以完美的地理精度重建真实世界的地点。

主要要点

Google Genie 3 代表了利用 AI 创建逼真、交互式 3D 世界的重大进步。它可以根据简单的文本提示将想法变为现实,模拟物理,甚至可以在安全的虚拟空间中训练 AI 系统。 

虽然它仍有局限性,但它为研究、游戏和人工智能开发开辟了许多可能性。它也是朝着更像人类一样思考和学习的通用人工智能(AGI)系统迈出的关键一步。

查看我们的 GitHub 代码仓库,了解更多关于 AI 的信息。加入我们活跃的 社区,探索 零售业中的 AI制造业中的视觉 AI 等领域的创新。要立即开始使用计算机视觉,请查看我们的许可选项

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板