遇见 YOLO26: 下一代视觉 AI。
Ultralytics
视觉 AI

Google Gemini Robotics 模型正在驱动更智能的机器人

探索 Google Gemini Robotics 如何通过多模态智能增强 AI 机器人,提高其适应性、灵活性以及人机交互的顺畅度。

ABAbirami Vina
4 min read
Google Gemini Robotics 模型驱动更智能的机器人

几十年来,机器人一直是未来的象征,频频出现在研究实验室、科幻电影和尖端工业原型展示中。现在,得益于近期的 人工智能 (AI) 进展,这些原型机正从受控环境走向实际应用。

具体来说,借助 Gemini Robotics,Google 正向构建 更智能的机器人 所需的技术迈进一步。Gemini Robotics 模型及其配套模型 Gemini Robotics-ER(具身推理)于 2025 年 3 月 12 日发布,是 Google DeepMind 的最新创新。

它们基于 Gemini 2.0 构建,这是一种多模态大语言模型 (LLM),能够处理和生成包括文本、图像、音频和视频在内的多种类型数据,从而实现更灵活、更自然的交互。这些模型将 Gemini 2.0 的多模态能力引入物理世界,使机器人变得更加灵巧、更具交互性和智能化。

例如,与遵循固定指令的传统机器人不同,集成 Gemini Robotics 模型的机器人能够处理视觉和语言信息。这使得它们能够做出实时决策并适应不断变化的环境。

在本文中,我们将深入探讨 Gemini Robotics 和 Gemini Robotics-ER,了解这些模型的工作原理及其关键特性和应用场景。让我们开始吧!

Gemini Robotics 帮助机器人高效执行多项任务

图 1. Gemini Robotics 帮助机器人高效执行多项任务。

Link to this sectionGoogle Gemini Robotics 简介#

Google 的 Gemini Robotics 是一款先进的 AI 模型,旨在赋予机器人感知、推理和在物理世界中进行交互的能力。作为视觉-语言-动作 (VLA) 模型,它使机器人能够处理指令、解读环境并以高 精度 执行复杂任务。

同时,Gemini Robotics-ER 模型增强了机器人理解空间关系的能力,即物体是如何定位、移动以及如何交互的。这有助于机器人预测动作并据此调整其移动。

例如,设想一个机器人需要将电线缠绕在耳机上的任务。Gemini Robotics-ER 帮助它理解场景,识别电线的形状和柔韧性,辨别耳机的结构,并预测电线在移动时将如何弯曲。随后,Gemini Robotics 将这种理解转化为动作,协调双手平稳地操作电线,调整抓握力度以避免缠结,并确保缠绕牢固。

通过将感知与行动相结合,Gemini Robotics 和 Gemini Robotics-ER 创建了一个智能系统,使机器人能够在动态环境中高效执行灵巧任务。

Gemini Robotics 模型系列概览

图 2. Gemini Robotics 模型系列概览。

Link to this section机器人领域的 AI:探索 Gemini Robotics 的工作原理#

接下来,让我们仔细看看每个模型,以更好地了解 Gemini Robotics 和 Gemini Robotics-ER 如何协同工作,在灵活性和快速响应之间取得平衡。

一方面,Gemini Robotics-ER 利用了两个关键机制:零样本代码生成和少样本上下文学习 (ICL)。通过零样本代码生成,模型无需额外训练,即可根据任务指令、图像和实时数据创建控制机器人的代码。

同样,通过 少样本学习,模型只需学习少量示例即可适应新任务,从而减少了对大量训练的需求。这些方法共同使机器人能够快速执行复杂任务,并以最小的投入适应新的挑战。

另一方面,Gemini Robotics 专为速度和效率而设计。它使用一种混合系统,包括云端骨干网和车载动作解码器。云端骨干网能快速处理信息,查询到响应的延迟低于 160 毫秒。

然后,车载解码器帮助将这些数据转换为实时动作。该组合系统实现了约 250 毫秒的总体响应时间,控制速度可达每秒 50 个动作。

Gemini Robotics 如何支持实时机器人控制

图 3. 了解 Gemini Robotics 如何支持实时机器人控制。

Link to this sectionGemini Robotics 的关键能力#

以下是 Gemini Robotics 关键特性的快速概览:

  • 通用性:它可以在保持准确性的同时适应光照、背景和物体的变化。它还能理解改写过的指令或多语言指令,并能针对不同条件调整移动方式。

  • 交互性:该模型可以处理广泛的自然语言指令并进行直观响应。它还会根据环境中的实时变化调整动作,使其非常适合 人机协作

  • 灵活性:搭载此模型的机器人可以执行复杂、精细的任务,例如折纸或处理精密物体。无论是循序渐进的流程还是快速动作,该模型都能帮助高效完成。

  • 多种实施方式:它适用于各种机器人平台,如双臂系统和人形机器人,只需少量微调即可。它能快速适应新任务,同时保持高性能。

Google Gemini Robotics 在各种机器人平台上的工作情况

图 4。Google Gemini Robotics 可在多种机器人平台上工作。

Link to this sectionGemini Robotics-ER 的关键能力#

以下是 Gemini Robotics-ER 的一些关键特性,它们帮助机器人理解世界并与之交互:

  • 目标检测 和跟踪:它可用于识别和跟踪 2D 和 3D 空间中的物体。通过使用自然语言查询,它能帮助机器人根据类型、位置或功能查找物体并预测其位置。

  • 指向:此功能允许模型使用精确坐标精确定位图像中的特定物体或部件。它可以用来帮助机器人定位完整的物体、物体的部分,甚至空地。

  • 抓取预测:Gemini Robotics-ER 可用于根据物体的形状和功能确定最佳抓取方式。它能预测抓取位置,无论是香蕉还是杯柄,使机器人能够小心地处理物品。

  • 轨迹推理:该模型可用于通过预测动作序列来规划移动路径。例如,它可以引导机器人手部移向工具或为特定任务定义路点,帮助机器人高效完成任务。

  • 多视图对应:此功能通过比较物体从不同角度呈现的外观,帮助模型理解 3D 结构。它可用于增强空间推理能力,使机器人能够更好地与动态环境中的物体进行交互。

Gemini Robotics-ER 处理各种任务

图 5. Gemini Robotics-ER 可以处理多种任务。

Link to this sectionGoogle Gemini Robotics 模型的应用场景#

既然我们已经讨论了 Gemini Robotics 和 Gemini Robotics-ER 的关键能力,让我们深入了解它们在各行各业的实际应用。

Link to this sectionGoogle Gemini Robotics 可应用于制造业#

制造业 中,精度和速度固然重要,但适应性才是让一切运行顺畅的关键。例如,一台由 Gemini 驱动的工业机器人可以通过识别正确的组件、将其精确定位并以精准的力度处理柔性橡胶带,从而组装滑轮系统。

它能够拉伸橡胶带、将其绕在滑轮上并固定,而不会断裂或错位。如果设置发生变化或任务有所不同,机器人无需进行大量重新编程即可进行调整。这种智能自动化减少了错误,提高了效率,并保持了制造流程的顺畅运行。

双臂工业机器人将橡皮筋安装到滑轮系统上

图 6. 双臂工业机器人精确地将橡胶带安装到滑轮系统上。

Link to this sectionGemini Robotics 赋能的智慧家庭#

繁忙的日程可能会让家务变得难以应付。智能机器人可以介入处理清洁、整理杂货甚至准备餐点等任务,让 日常生活 变得更轻松。

这可能表现为一个机器人正在打包午餐袋,仔细挑选并放入食物,同时调整抓握力以保护水果或罐头等易碎物品。即使物品摆放发生变化,机器人也能自主适应,在最少的人工监督下减轻日常家务负担。

人形机器人小心地打包午餐袋

图 7。人形机器人小心地打包午餐袋。

Link to this section利用 Gemini Robotics 的利弊#

Gemini Robotics 正在扩展机器人的能力,从精密制造到智能家居辅助。以下是跨行业应用 Gemini Robotics 的一些关键优势:

  • 极简的 训练 要求:与传统机器人不同,由 Gemini Robotics 驱动的机器人可以从少量演示中学习,降低了训练成本,使其更容易部署。
  • 增强的安全性:在危险环境中,集成 Gemini Robotics 的机器人可以执行危险任务,降低了人类工人的受伤风险。
  • 可定制功能:Gemini Robotics 的灵活性意味着它可以根据不同行业或企业的特定需求进行定制,从而实现专业化应用和独特的解决方案。

虽然 Gemini Robotics 提供了诸多好处,但解决以下局限性同样重要:

  • 空间关系挑战:这些模型在长视频序列中跟踪空间关系时可能会遇到困难,这影响了它们随时间推移对物体进行跟踪和理解的能力。
  • 缺乏数值精度:模型的预测(如点和边界框)可能不足以满足需要精细控制的任务(如精密机器人任务)。
  • 复杂任务:Gemini Robotics 可能难以处理需要多步推理和精确移动的复杂任务,特别是在新的或不熟悉的环境中。

Link to this section机器人领域 AI 的未来#

随着 AI 的持续进步,Gemini Robotics 和 Gemini Robotics-ER 等模型正在推动 机器人技术的未来。未来的改进可能集中在增强多步推理上,使机器人能够将任务拆解为逻辑步骤,以实现更高的精度。

Google DeepMind 计划研究的另一个关键领域是基于模拟的训练。通过在虚拟环境中学习后再进行实际部署,机器人可以改进决策和动作,从而最大限度地减少实际应用中的错误。

随着这些技术的发展,它们可能会为一个机器人更加自主、适应性更强,并能在日常生活中与人类无缝协作的未来铺平道路。

Link to this section关键要点#

Gemini Robotics 是 AI 驱动自动化领域迈出的重要一步,连接了数字智能与现实世界的物理任务。通过结合视觉、语言和基于动作的学习,这些机器人能够以高精度和高适应性处理复杂任务。

随着机器人变得越来越智能,它们可能会在日常生活中发挥更大的作用,改变人类与机器的协作方式。这一进展正使我们向一个智能、互联的世界迈进,在这个世界中,AI 驱动的自动化将提升行业水平和日常任务的处理效率。

加入我们不断成长的 社区 吧!访问我们的 GitHub 仓库 以深入探索 AI。想要开启您自己的计算机视觉项目吗?查看我们的 许可选项。在我们的解决方案页面上了解更多关于 制造业中的 AI汽车行业视觉 AI 的信息!

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅