ヨロビジョン深圳
深セン
今すぐ参加

Google Gemini Roboticsモデルがよりスマートなロボットを強化

Abirami Vina

4分で読めます

2025年4月4日

Google Gemini Roboticsが、マルチモーダルな知能を備えたAI搭載ロボットをどのように強化し、適応性、器用さ、シームレスな人間とのインタラクションを向上させるかを探ります。

数十年にわたり、ロボットは未来を象徴するものとして、研究室、SF映画、最先端の産業プロトタイプの展示会に登場してきました。現在、最近の人工知能(AI)の進歩のおかげで、これらのプロトタイプは制御された環境から現実世界のアプリケーションへと移行しています。 

具体的には、Gemini Roboticsにより、Googleはよりスマートなロボットの構築に必要な技術に一歩近づいています。2025年3月12日に発表されたGemini Roboticsモデルと、そのコンパニオンモデルであるGemini Robotics-ER(Embodied Reasoning)は、Google DeepMindの最新のイノベーションです。 

これらは、テキスト、画像、オーディオ、ビデオなど、さまざまな種類のデータを処理および生成できるマルチモーダル大規模言語モデル(LLM)であるGemini 2.0上に構築されており、より多様で自然なインタラクションを促進します。これらのモデルは、Gemini 2.0のマルチモーダル機能を物理世界にもたらし、より器用でインタラクティブでインテリジェントなロボットを可能にします。

たとえば、固定された指示に従う従来のロボットとは異なり、Gemini Roboticsモデルと統合されたロボットは、視覚と言語を処理できます。これにより、リアルタイムで意思決定を行い、変化する環境に適応することが可能になります。

この記事では、Gemini RoboticsとGemini Robotics-ER、これらのモデルの仕組み、およびその主要な機能とアプリケーションについて説明します。それでは始めましょう!

__wf_reserved_inherit
図1. Gemini Roboticsは、ロボットが複数のタスクを効率的に実行するのを支援します。

Google Gemini Roboticsのご紹介

GoogleのGemini Roboticsは、ロボットに物理世界を認識、推論、およびインタラクトする能力を与えるように設計された高度なAIモデルです。ビジョン-言語-アクション(VLA)モデルとして、ロボットは指示を処理し、環境を解釈し、高い精度で複雑なタスクを実行できます。

一方、Gemini Robotics-ERモデルは、オブジェクトがどのように配置され、どのように移動し、どのように相互作用するかという空間関係を理解するロボットの能力を向上させます。これにより、ロボットはアクションを予測し、それに応じて動きを調整できます。 

たとえば、ロボットがヘッドホンにワイヤーを巻き付ける必要があるタスクを考えてみましょう。Gemini Robotics-ERは、シーンを理解し、ワイヤーの形状と柔軟性を認識し、ヘッドホンの構造を識別し、ワイヤーが動くにつれてどのように曲がるかを予測するのに役立ちます。次に、Gemini Roboticsはこの理解をアクションに変換し、両手を調整してワイヤーをスムーズに操作し、絡まないようにグリップを調整し、安全な巻き付けを保証します。

Gemini RoboticsとGemini Robotics-ERは、知覚とアクションを組み合わせることで、動的な環境でロボットが器用なタスクを効率的に実行できるインテリジェントなシステムを構築します。

__wf_reserved_inherit
図2. Gemini Roboticsモデルファミリーの概要。

ロボット工学におけるAI:Gemini Roboticsの仕組みの探求

次に、各モデルを詳しく見て、Gemini RoboticsとGemini Robotics-ERがどのように連携して柔軟性と迅速なアクションのバランスを取っているかをより深く理解しましょう。 

一方、Gemini Robotics-ERは、ゼロショットコード生成とフューショットインコンテキスト学習(ICL)という2つの主要なメカニズムを活用しています。ゼロショットコード生成により、モデルは追加のトレーニングを必要とせずに、タスクの指示、画像、およびリアルタイムデータに基づいてロボットを制御するコードを作成できます。 

同様に、few-shot learningでは、モデルはわずかなサンプルから学習することで新しいタスクに適応し、大規模なトレーニングの必要性を減らします。これらの手法を組み合わせることで、ロボットは複雑なタスクを迅速に実行し、最小限の労力で新しい課題に適応できます。

一方、Gemini Roboticsは、スピードと効率性を重視して構築されています。クラウドベースのバックボーンとオンボードのアクションデコーダーで構成されるハイブリッドシステムを使用しています。クラウドベースのバックボーンは情報を迅速に処理し、クエリから応答までのレイテンシは160ミリ秒未満です。 

次に、オンボードデコーダーがこのデータをリアルタイムのアクションに変換します。この組み合わせシステムにより、全体的な応答時間は約250ミリ秒、制御速度は毎秒50アクションを達成しています。

__wf_reserved_inherit
図3. Gemini Roboticsがリアルタイムのロボット制御をどのようにサポートするかを理解する。

Gemini Roboticsの主な機能 

Gemini Roboticsの主な機能の概要を以下に示します。

  • 汎用性: 照明、背景、オブジェクトの変化に適応しながら、精度を維持できます。また、言い換えられたコマンドや多言語のコマンドを理解し、さまざまな条件に合わせて動きを調整できます。

  • インタラクティブ性: このモデルは、広範囲の自然言語コマンドを処理し、直感的に応答できます。また、環境内のリアルタイムの変化に基づいてアクションを調整するため、人間とロボットのコラボレーションに最適です。

  • 器用さ: このモデルを搭載したロボットは、折り紙を折ったり、壊れやすい物を扱ったりするなど、複雑で正確なタスクを実行できます。段階的なプロセスでも、迅速なアクションでも、モデルは効率的に実行するのに役立ちます。
  • 複数の実施形態: 二腕システムやヒューマノイドロボットなど、さまざまなロボットプラットフォームで、微調整をほとんど行わずに動作します。高いパフォーマンスを維持しながら、新しいタスクに迅速に適応します。
__wf_reserved_inherit
図4. Google Gemini Roboticsは、さまざまなロボットプラットフォームで動作します。

Gemini Robotics - ERの主な機能

Gemini Robotics-ERの主な機能のうち、ロボットが世界を理解し、相互作用するのに役立つものをいくつかご紹介します。

  • 物体検出とトラッキング:2Dおよび3D空間で物体を識別し、追跡するために使用できます。自然言語クエリを使用することで、ロボットが物体の種類、場所、または機能に基づいて物体を検索し、その位置を予測するのに役立ちます。

  • ポインティング:この機能により、モデルは正確な座標を使用して、画像内の特定の物体または部分を特定できます。ロボットが物体全体、物体の部分、または空のスペースを見つけるのに役立ちます。
  • 把持予測:Gemini Robotics-ERは、物体の形状と機能に基づいて、物体を把持する最適な方法を決定するために使用できます。バナナやカップの取っ手など、どこを把持するかを予測し、ロボットがアイテムを慎重に扱えるようにします。

  • 軌道推論:モデルは、一連の行動を予測することで、移動経路を計画するために使用できます。たとえば、ロボットハンドをツールに向かって誘導したり、特定のタスクのウェイポイントを定義したりして、ロボットがタスクを効率的に完了できるようにします。

  • マルチビュー対応:この機能は、異なる角度から見たときの物体の見え方を比較することで、モデルが3D構造を理解するのに役立ちます。空間推論を強化するために使用でき、ロボットが動的な環境で物体とより適切に相互作用できるようにします。
__wf_reserved_inherit
図5. Gemini Robotics-ERは、さまざまなタスクを処理できます。

Google Gemini Roboticsモデルのアプリケーション

Gemini RoboticsとGemini Robotics-ERの主要な機能について説明したので、さまざまな業界における実際のアプリケーションについて詳しく見ていきましょう。

Google Gemini Roboticsは製造業で使用できます

製造業においては、精度とスピードが重要ですが、実際には適応性こそがすべてを円滑に進める上で最も重要です。例えば、Geminiを搭載した産業用ロボットは、適切な部品を識別し、正確に配置し、柔軟なゴムバンドを正確な力で扱うことで、プーリーシステムを組み立てることができます。 

バンドを伸ばし、プーリーに巻き付け、破損やずれがないように固定できます。セットアップが変更されたり、タスクが異なったりした場合でも、ロボットは大規模な再プログラミングを必要とせずに適応できます。このスマートな自動化により、エラーが減少し、効率が向上し、製造プロセスが円滑に実行され続けます。

__wf_reserved_inherit
図6. 2本のアームを持つ産業用ロボットが、プーリーシステムにゴムバンドを正確に取り付けています。

Gemini Roboticsによって実現されるスマートホーム

忙しいスケジュールでは、家事についていくのが難しい場合があります。スマートロボットは、掃除、食料品の整理、さらには食事の準備の手伝いなどのタスクを処理し、日常生活を楽にすることができます。 

これは、ロボットがランチバッグを詰め、果物や缶詰などの壊れやすいアイテムを保護するためにグリップを調整しながら、食品を慎重に選択して中に配置する様子に似ています。配置が変更された場合でも、ロボットは自律的に適応できるため、最小限の監督で日常の雑用を軽減できます。

__wf_reserved_inherit
図7. 人型ロボットが丁寧にランチバッグを詰めている様子。

Gemini Roboticsを活用することのメリットとデメリット 

Gemini Roboticsは、精密な製造からスマートホーム支援まで、ロボットができることを拡張しています。Gemini Roboticsをさまざまなアプリケーションで使用する主な利点を以下に示します。 

  • 最小限のトレーニング要件: 従来のロボットとは異なり、Gemini Robotics駆動のロボットは、わずかなデモンストレーションから学習できるため、トレーニングコストが削減され、導入が容易になります。

  • 強化された安全性: 危険な環境では、Gemini Roboticsと統合されたロボットが危険なタスクを実行できるため、人的労働者の負傷リスクを軽減できます。
  • カスタマイズ可能な機能: Gemini Roboticsの柔軟性により、さまざまな業界や個々の企業の特定のニーズに合わせて調整でき、特殊なアプリケーションと独自のソリューションが可能になります。

Gemini Roboticsはいくつかの利点を提供しますが、以下の制限事項に対処することも重要です。

  • 空間的関係の課題: これらのモデルは、長いビデオシーケンスにわたって空間的関係を追跡することが難しい場合があり、時間の経過に伴うオブジェクトの追跡と理解に影響を与えます。
  • 数値精度の欠如: モデルの予測(点やバウンディングボックスなど)は、繊細なロボットタスクなど、微細な制御を必要とするタスクには十分な精度がない場合があります。
  • 複雑なタスク: Gemini Roboticsは、特に新しい状況や不慣れな状況において、複数ステップの推論と正確な動きを必要とする複雑なタスクの処理に苦労する可能性があります。 

ロボティクスにおけるAIの未来

AIの進化に伴い、Gemini RoboticsやGemini Robotics-ERのようなモデルがロボティクスの未来を牽引しています。今後の改善では、マルチステップ推論の強化に焦点が当てられ、ロボットがタスクを論理的なステップに分解して、より高い精度を実現できるようになるでしょう。

Google DeepMindが取り組む予定のもう1つの重要な開発分野は、シミュレーションベースのトレーニングです。実世界での展開前に仮想環境で学習することで、ロボットは意思決定と動きを洗練させ、実際のアプリケーションでのエラーを最小限に抑えることができます。

これらの技術が進化するにつれて、ロボットがより自律的で、適応性があり、日常生活で人間とシームレスに連携できる未来への道が開かれる可能性があります。

主なポイント

Gemini Roboticsは、AI主導の自動化における大きな進歩であり、デジタルインテリジェンスと現実世界の物理的なタスクを結び付けます。ビジョン、言語、および行動ベースの学習を組み合わせることで、これらのロボットは複雑なタスクを精度と適応性で処理できます。 

ロボットがよりスマートになり続けるにつれて、日常生活でより大きな役割を果たすようになり、人間と機械が協力する方法が変わる可能性があります。この進歩により、AI主導の自動化が産業と日常業務の両方を強化する、インテリジェントでより接続された世界に近づいています。

成長を続けるコミュニティに参加しましょう!GitHubリポジトリにアクセスして、AIについてさらに深く掘り下げてください。独自のコンピュータビジョンプロジェクトを開始してみませんか?ライセンスオプションをご覧ください。ソリューションページで、製造業におけるAI自動車産業におけるビジョンAIについて詳しくご覧ください!

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました