DeepMind 的 Genie 3 AI 世界模型将文本或图像提示转换为 3D 环境。这一进步标志着朝着类人智能迈出的又一步。
.webp)
DeepMind 的 Genie 3 AI 世界模型将文本或图像提示转换为 3D 环境。这一进步标志着朝着类人智能迈出的又一步。
.webp)
2025 年 8 月 5 日,Google DeepMind 发布了最新版本的精灵模型,即精灵 3。这是一种新的人工智能模型,可以将用户的文字提示转化为动态的交互环境。
这些环境或 AI 世界,使用户可以实时导航并与之交互,就像在视频游戏中一样。用户还可以通过提供额外的文本提示来扩展或修改环境,从而实现即时更改而无需重新启动模拟。
最新的 "精灵 "Google 模型之所以特别有影响力,是因为它可以用来训练人工智能代理。这包括利用数据和反馈教人工智能代理做出决策或执行任务。通过使用模拟三维环境而不是真实世界,研究人员可以避免真实世界训练中的许多挑战、成本和风险。
Google Genie 3 还能模拟复杂的场景,例如测试自动驾驶汽车在恶劣天气中的行驶,或测试翼装飞行器在山区地形中的滑行。
本文将探讨Google Genie 3 及其功能。让我们开始吧!

在深入了解Google DeepMind 的 Genie 模型之前,我们先来了解一下什么是世界模型。
世界模型是一种 AI 系统,可以从文本、图像、视频和运动数据集中学习物理、运动和空间关系等真实世界的规则。这使它们能够创建逼真的场景并预测它们如何演变。Genie 模型就是此类系统的示例。
以下是为 Genie 3 铺路的早期Google Genie 型号的简要介绍:
在早期精灵模型的基础上,精灵 3 是该系列中最新、最先进的一款。它尤其以精灵 2 和Veo 3 为基础,精灵 2 可以生成新的虚拟环境,而Veo 3 则是Google DeepMind 的最新视频生成模型。Veo 3 展示了对物理以及物体在现实世界中如何相互作用的深刻理解。
Veo 3 使用的是硬编码物理引擎,而Google Genie 3 则使用一种称为自我监督学习的方法自学物理原理。这是一种人工智能学习技术,人工智能模型通过生成自己的学习信号,从未标明的数据中学习模式和关系。
Google 精灵 3 的自我监督学习能力对于训练人工智能系统(如人工智能代理或人工智能机器人)处理各种任务至关重要。事实上,Google DeepMind 的研究人员认为,精灵 3 是迈向人工通用智能(AGI)的重要一步。

通用人工智能 (AGI) 是一种理论上的人工智能形式,它可以理解和学习任何任务或主题,并将该知识应用于不同的情况,就像人类一样。与当今为特定任务构建且难以将其技能转移到新问题的人工智能模型不同,AGI 将能够在广泛的上下文中进行适应和学习。
以下是Genie 3支持的一些主要功能:

Google Genie 3 可以让学习、研究和培训更加身临其境、引人入胜。例如,在课堂上,它可以让学生探索古代城市或遨游太空,从而使历史、科学或地理栩栩如生。同样,对于人工智能开发人员来说,它可以提供逼真的虚拟世界,让他们练习策略、应对挑战和提高决策技能。
科学家还可以使用它来创建受控模拟,以测试想法、研究生态系统或观察物体的行为。另一个有趣的应用是在视频游戏开发中。游戏开发者可以将文本提示转化为详细的游戏世界,从而加快开发速度并减少对大型团队的需求。

虽然Google Genie 3 提供了许多功能和优点,但也要考虑到它的缺点。
以下是一些需要考虑的局限性:
Google 精灵 3 代表着利用人工智能创建逼真、交互式三维世界的重大进步。它可以通过简单的文字提示将创意变为现实,模拟物理,甚至在安全的虚拟空间中训练人工智能系统。
虽然它仍有局限性,但它为研究、游戏和人工智能开发开辟了许多可能性。它也是朝着更像人类一样思考和学习的通用人工智能(AGI)系统迈出的关键一步。
查看我们的 GitHub 代码仓库,了解更多关于 AI 的信息。加入我们活跃的 社区,探索 零售业中的 AI 和 制造业中的视觉 AI 等领域的创新。要立即开始使用计算机视觉,请查看我们的许可选项。