深圳尤洛视觉
深圳
立即加入

Google Gemini Robotics 模型正在为更智能的机器人提供动力

Abirami Vina

4 分钟阅读

2025年4月4日

探索 Google Gemini Robotics 如何通过多模态智能增强人工智能机器人,从而提高适应性、灵巧性和无缝人机交互能力。

几十年来,机器人一直是未来的象征,出现在研究实验室、科幻电影和尖端工业原型展示中。现在,由于最近人工智能 (AI)的进步,这些原型正在超越受控环境,进入现实世界的应用。 

具体来说,通过 Gemini Robotics,Google 正在朝着构建更智能的机器人所需的技术迈进。Gemini Robotics 模型及其配套模型 Gemini Robotics-ER(具身推理)于 2025 年 3 月 12 日发布,是 Google DeepMind 的最新创新。 

它们基于 Gemini 2.0 构建,Gemini 2.0 是一种多模态大型语言模型 (LLM),可以处理和生成各种类型的数据,包括文本、图像、音频和视频,从而促进更多功能和自然的交互。这些模型将 Gemini 2.0 的多模态功能带入物理世界,从而实现更灵活、交互和智能的机器人。

例如,与遵循固定指令的传统机器人不同,集成 Gemini 机器人模型的机器人可以处理视觉和语言。这使得它们可以做出实时决策并适应不断变化的环境。

在本文中,我们将探讨 Gemini Robotics 和 Gemini Robotics-ER,这些模型的工作原理、主要特性和应用。让我们开始吧!

__wf_reserved_inherit
图 1. Gemini Robotics 帮助机器人高效地执行多项任务。

Google Gemini 机器人简介

Google 的 Gemini Robotics 是一种先进的 AI 模型,旨在赋予机器人感知、推理和在物理世界中交互的能力。作为一种视觉-语言-动作 (VLA) 模型,它允许机器人处理指令、解释其环境并以高精度执行复杂任务。

与此同时,Gemini Robotics-ER模型提高了机器人理解物体空间关系的能力,包括物体如何定位、如何移动以及如何交互。这有助于机器人预测动作并相应地调整其运动。 

例如,考虑一个机器人需要将电线缠绕在耳机上的任务。Gemini Robotics-ER 帮助它理解场景,识别电线的形状和柔韧性,识别耳机的结构,并预测电线在移动时如何弯曲。然后,Gemini Robotics 将这种理解转化为行动,协调双手平稳地操作电线,调整其抓握力以避免缠结,并确保牢固的缠绕。

通过将感知与行动相结合,Gemini Robotics 和 Gemini Robotics-ER 创建了一个智能系统,使机器人能够在动态环境中高效地执行灵巧的任务。

__wf_reserved_inherit
图 2. Gemini 机器人模型系列概述。

机器人技术中的人工智能:探索 Gemini Robotics 的工作原理

接下来,让我们更深入地了解每个模型,以便更好地理解 Gemini Robotics 和 Gemini Robotics-ER 如何协同工作,以平衡灵活性和快速操作。 

一方面,Gemini Robotics-ER 利用两种关键机制:零样本代码生成和少样本上下文学习 (ICL)。通过零样本代码生成,该模型可以根据任务指令、图像和实时数据创建代码来控制机器人,而无需额外的训练。 

同样,借助小样本学习,模型通过从几个示例中学习来适应新任务,从而减少了对大量训练的需求。这些方法共同使机器人能够快速执行复杂的任务,并以最小的努力适应新的挑战。

另一方面,Gemini Robotics 的构建是为了速度和效率。它使用由基于云的骨干网和板载行动解码器组成的混合系统。基于云的骨干网可以快速处理信息,查询到响应的延迟低于 160 毫秒。 

然后,车载解码器有助于将这些数据转换为实时动作。该组合系统实现了大约 250 毫秒的总体响应时间,控制速度为每秒 50 个动作。

__wf_reserved_inherit
图 3. 了解 Gemini Robotics 如何支持实时机器人控制。

Gemini Robotics的主要功能 

以下是 Gemini Robotics 主要功能的一览:

  • 通用性:它可以适应光照、背景和对象的变化,同时保持准确性。它还可以理解释义或多语言命令,并可以调整运动以适应不同的条件。

  • 交互性:该模型可以处理各种自然语言命令并直观地响应。它还可以根据环境中的实时变化调整其操作,使其成为人机协作的理想选择。

  • 灵巧性:由该模型驱动的机器人可以执行复杂、精确的任务,例如折叠纸或处理精细的物体。无论是循序渐进的过程还是快速的动作,该模型都可以帮助高效地执行它们。
  • 多种形态: 它可以跨各种机器人平台工作,如双臂系统和人形机器人,只需少量微调。它可以快速适应新任务,同时保持高性能。
__wf_reserved_inherit
图 4. Google Gemini Robotics 可在各种机器人平台上工作。

Gemini Robotics - ER的主要功能

以下是 Gemini Robotics-ER 的一些关键特性,这些特性有助于机器人理解世界并与之交互:

  • 物体检测和跟踪:可用于识别和跟踪 2D 和 3D 空间中的物体。通过使用自然语言查询,它可以帮助机器人查找物体并预测其位置,无论是基于类型、位置还是功能。

  • 指向:此功能允许模型使用精确的坐标精确定位图像中的特定对象或部分。它可用于帮助机器人定位整个对象、对象的部分,甚至空的空间。
  • 抓取预测:Gemini Robotics-ER 可用于根据物体的形状和功能确定抓取物体的最佳方式。它可以预测抓取位置,无论是香蕉还是杯柄,从而使机器人能够小心地处理物品。

  • 轨迹推理:该模型可以通过预测动作序列来规划运动路径。例如,它可以引导机器人手朝向工具或为特定任务定义航点,从而帮助机器人高效地完成任务。

  • 多视角对应: 此功能通过比较对象从不同角度出现的方式,帮助模型理解 3D 结构。它可用于增强空间推理,使机器人能够更好地与动态环境中的对象交互。
__wf_reserved_inherit
图 5. Gemini Robotics-ER 可以处理各种任务。

Google Gemini 机器人模型的应用

现在我们已经讨论了 Gemini Robotics 和 Gemini Robotics-ER 的关键功能,让我们深入了解它们在各个行业的实际应用。

Google Gemini Robotics 可用于制造业

制造业 方面,精度和速度很重要,但适应性才是真正让一切顺利运行的原因。例如,由 Gemini 驱动的工业机器人可以通过识别正确的组件、正确定位它们以及以精确的力处理柔性橡皮筋来组装滑轮系统。 

它可以拉伸带子,将其缠绕在滑轮上,并在不破损或错位的情况下固定它。如果设置发生变化或任务发生变化,机器人可以适应而无需进行大量重新编程。这种智能自动化减少了错误,提高了效率,并保持制造过程的平稳运行。

__wf_reserved_inherit
图 6. 一台双臂工业机器人将橡胶带精确地安装到滑轮系统上。

由 Gemini Robotics 提供支持的智能家居

繁忙的日程安排可能会使处理家务变得具有挑战性。智能机器人可以介入处理清洁、整理食品,甚至帮助准备膳食等任务,从而使日常生活更轻松。 

这可能看起来像一个机器人正在打包午餐袋,小心地选择和放置食物,同时调整其抓握力以保护水果或罐头等易碎物品。即使排列发生变化,机器人也可以自行适应,从而在最少的监督下减轻日常家务。

__wf_reserved_inherit
图 7. 一个人形机器人正在小心地打包午餐袋。

利用 Gemini Robotics 的利弊 

Gemini Robotics 正在扩展机器人可以做的事情,从精确制造到智能家居辅助。以下是在各种应用中使用 Gemini Robotics 的一些主要优势: 

  • 最低训练要求:与传统机器人不同,Gemini Robotics 驱动的机器人可以通过少量演示进行学习,从而降低训练成本并使其更易于部署。

  • 增强安全性:在危险环境中,集成 Gemini Robotics 的机器人可以执行危险任务,从而降低人类工人受伤的风险。
  • 可定制的功能: Gemini Robotics 的灵活性意味着它可以进行定制,以满足不同行业或个体企业的特定需求,从而实现专业的应用和独特的解决方案。

虽然 Gemini Robotics 具有多项优势,但解决以下限制也很重要:

  • 空间关系挑战:这些模型可能难以跟踪长视频序列中的空间关系,这会影响它们随时间跟踪和理解对象的能力。
  • 缺乏数值精度: 对于需要精细控制的任务(例如精细的机器人任务),模型的预测(如点和边界框)可能不够精确。
  • 复杂任务:Gemini Robotics 在处理需要多步骤推理和精确运动的复杂任务时可能会遇到困难,尤其是在新的或不熟悉的情况下。 

人工智能在机器人技术领域的未来

随着人工智能的不断进步,像Gemini Robotics和Gemini Robotics-ER这样的模型正在推动机器人技术的未来。未来的改进可能会侧重于增强多步骤推理,使机器人能够将任务分解为逻辑步骤,从而提高精度。

Google DeepMind 计划开发的另一个关键领域是基于模拟的训练。通过在实际部署之前在虚拟环境中学习,机器人可以改进其决策和运动,从而最大限度地减少实际应用中的错误。

随着这些技术的不断发展,它们将为机器人更加自主、适应性更强,并且能够在日常生活中与人类无缝协作的未来铺平道路。

主要要点

Gemini Robotics 是 AI 驱动的自动化领域的一大进步,它将数字智能与现实世界的物理任务连接起来。通过结合视觉、语言和基于行动的学习,这些机器人可以精确且适应性强地处理复杂的任务。 

随着机器人变得越来越智能,它们可能会在日常生活中发挥更大的作用,从而改变人类和机器的协同工作方式。 这一进展使我们越来越接近一个智能、更互联的世界,在这个世界中,人工智能驱动的自动化增强了行业和日常任务。

加入我们不断壮大的社区!访问我们的GitHub 仓库,深入了解人工智能。想要开始您自己的计算机视觉项目吗?请查看我们的许可选项。在我们的解决方案页面上了解更多关于人工智能在制造业领域视觉人工智能在汽车行业的应用!

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板