욜로 비전 선전
선전
지금 참여하기

Google Gemini 로보틱스 모델은 더 스마트한 로봇을 구동합니다.

Abirami Vina

4분 소요

2025년 4월 4일

Google Gemini Robotics가 어떻게 멀티모달 지능으로 AI 기반 로봇을 향상시켜 적응성, 손재주, 원활한 인간 상호 작용을 증진하는지 살펴보세요.

수십 년 동안 로봇은 연구실, 공상 과학 영화 및 최첨단 산업 프로토타입 쇼케이스에 등장하면서 미래를 상징해 왔습니다. 이제 최근 인공 지능(AI) 발전 덕분에 이러한 프로토타입은 통제된 환경에서 벗어나 실제 응용 분야로 이동하고 있습니다. 

특히 Gemini Robotics를 통해 Google은 더 스마트한 로봇을 구축하는 데 필요한 기술에 한 걸음 더 다가가고 있습니다. 2025년 3월 12일에 출시된 Gemini Robotics 모델과 동반 모델인 Gemini Robotics-ER(Embodied Reasoning)은 Google DeepMind의 최신 혁신 기술입니다. 

이러한 모델은 텍스트, 이미지, 오디오 및 비디오를 포함한 다양한 유형의 데이터를 처리하고 생성할 수 있는 멀티모달 대규모 언어 모델(LLM)인 Gemini 2.0을 기반으로 구축되어 보다 다재다능하고 자연스러운 상호 작용을 촉진합니다. 이러한 모델은 Gemini 2.0의 멀티모달 기능을 물리적 세계로 가져와 더욱 능숙하고 상호 작용적이며 지능적인 로봇을 구현합니다.

예를 들어, 고정된 지침을 따르는 기존 로봇과 달리 Gemini Robotics 모델과 통합된 로봇은 시각과 언어를 처리할 수 있습니다. 이를 통해 실시간으로 결정을 내리고 변화하는 환경에 적응할 수 있습니다.

본 문서에서는 Gemini Robotics 및 Gemini Robotics-ER에 대해 알아보고, 이러한 모델의 작동 방식과 주요 기능 및 응용 분야를 살펴보겠습니다. 그럼 시작해 볼까요!

__wf_reserved_inherit
Fig 1. Gemini Robotics는 로봇이 여러 작업을 효율적으로 수행하도록 돕습니다.

Google Gemini Robotics 소개

Google의 Gemini Robotics는 로봇이 물리적 세계에서 인식하고 추론하며 상호 작용할 수 있도록 설계된 고급 AI 모델입니다. VLA(Vision-Language-Action) 모델로서 로봇이 지침을 처리하고, 환경을 해석하고, 높은 정밀도로 복잡한 작업을 실행할 수 있도록 지원합니다.

한편, Gemini Robotics-ER 모델은 객체의 공간적 관계, 즉 객체가 배치된 방식, 이동 방식 및 상호 작용 방식을 이해하는 로봇의 능력을 향상시킵니다. 이는 로봇이 동작을 예측하고 그에 따라 움직임을 조정하는 데 도움이 됩니다. 

예를 들어, 로봇이 헤드폰 주위에 전선을 감아야 하는 작업을 생각해 보십시오. Gemini Robotics-ER은 장면을 이해하고, 전선의 모양과 유연성을 인식하고, 헤드폰의 구조를 식별하고, 전선이 움직일 때 어떻게 구부러질지 예측하는 데 도움이 됩니다. 그런 다음 Gemini Robotics는 이 이해를 행동으로 변환하여 양손을 조정하여 전선을 부드럽게 조작하고, 엉키지 않도록 그립을 조정하고, 안전한 랩을 보장합니다.

Gemini Robotics와 Gemini Robotics-ER은 인식과 행동을 결합하여 로봇이 역동적인 환경에서 민첩한 작업을 효율적으로 수행할 수 있도록 하는 지능형 시스템을 만듭니다.

__wf_reserved_inherit
Fig 2. Gemini Robotics 모델 제품군에 대한 개요입니다.

로봇 공학 분야의 AI: Gemini Robotics 작동 방식 살펴보기

다음으로, Gemini Robotics와 Gemini Robotics-ER이 유연성과 빠른 동작 간의 균형을 맞추기 위해 어떻게 협력하는지 더 잘 이해하기 위해 각 모델을 자세히 살펴보겠습니다. 

한편, Gemini Robotics-ER은 제로샷 코드 생성과 퓨샷 인컨텍스트 학습(ICL)이라는 두 가지 주요 메커니즘을 활용합니다. 제로샷 코드 생성을 통해 모델은 추가 교육 없이 작업 지침, 이미지 및 실시간 데이터를 기반으로 로봇을 제어하는 코드를 생성할 수 있습니다. 

마찬가지로 퓨샷 러닝을 통해 모델은 몇 안 되는 예제만으로 학습하여 새로운 작업에 적응하므로 광범위한 학습이 필요하지 않습니다. 이러한 방법을 통해 로봇은 복잡한 작업을 신속하게 수행하고 최소한의 노력으로 새로운 문제에 적응할 수 있습니다.

반면에 Gemini Robotics는 속도와 효율성을 위해 구축되었습니다. 클라우드 기반 백본과 온보드 액션 디코더로 구성된 하이브리드 시스템을 사용합니다. 클라우드 기반 백본은 쿼리-응답 대기 시간이 160밀리초 미만으로 정보를 빠르게 처리합니다. 

그런 다음 온보드 디코더가 이 데이터를 실시간 작업으로 변환하는 데 도움을 줍니다. 이 결합된 시스템은 초당 50회의 제어 속도로 약 250밀리초의 전체 응답 시간을 달성합니다.

__wf_reserved_inherit
Fig 3. Gemini Robotics가 실시간 로봇 제어를 어떻게 지원하는지 이해합니다.

Gemini Robotics의 주요 기능 

다음은 Gemini Robotics의 주요 기능을 간략하게 보여줍니다.

  • 일반성: 정확도를 유지하면서 조명, 배경 및 객체의 변화에 적응할 수 있습니다. 또한 의역되거나 다국어 명령을 이해하고 다양한 조건에 맞게 움직임을 조정할 수 있습니다.

  • 상호 작용성: 이 모델은 광범위한 자연어 명령을 처리하고 직관적으로 응답할 수 있습니다. 또한 환경의 실시간 변화에 따라 동작을 조정하므로 인간-로봇 협업에 이상적입니다.

  • 손재주: 이 모델로 구동되는 로봇은 종이접기를 접거나 섬세한 물체를 다루는 것과 같이 복잡하고 정확한 작업을 수행할 수 있습니다. 단계별 프로세스이든 빠른 작업이든 모델은 효율적으로 실행하는 데 도움이 될 수 있습니다.
  • 다중 구현: 양팔 시스템 및 휴머노이드 로봇과 같은 다양한 로봇 플랫폼에서 약간의 미세 조정만으로 작동합니다. 높은 성능을 유지하면서 새로운 작업에 빠르게 적응합니다.
__wf_reserved_inherit
Fig 4. Google Gemini Robotics는 다양한 로봇 플랫폼에서 작동합니다.

Gemini Robotics - ER의 주요 기능

다음은 로봇이 세상을 이해하고 상호 작용하도록 돕는 Gemini Robotics-ER의 주요 기능 중 일부입니다.

  • 객체 감지 및 추적: 2D 및 3D 공간 모두에서 객체를 식별하고 추적하는 데 사용할 수 있습니다. 자연어 쿼리를 사용하여 로봇이 유형, 위치 또는 기능에 따라 객체를 찾고 위치를 예측하는 데 도움이 됩니다.

  • 포인팅: 이 기능을 통해 모델은 정확한 좌표를 사용하여 이미지 내의 특정 객체 또는 부분을 정확히 찾아낼 수 있습니다. 로봇이 전체 객체, 객체 부분 또는 빈 공간을 찾는 데 도움이 되도록 사용할 수 있습니다.
  • 파지 예측: Gemini Robotics-ER은 모양과 기능에 따라 물체를 잡는 가장 좋은 방법을 결정하는 데 사용할 수 있습니다. 바나나든 컵 손잡이든 잡을 위치를 예측하여 로봇이 물건을 조심스럽게 다룰 수 있도록 합니다.

  • 궤적 추론: 모델을 사용하여 일련의 동작을 예측하여 이동 경로를 계획할 수 있습니다. 예를 들어 로봇 손을 도구로 안내하거나 특정 작업에 대한 웨이포인트를 정의하여 로봇이 작업을 효율적으로 완료하도록 도울 수 있습니다.

  • 다중 뷰 대응: 이 기능은 모델이 다양한 각도에서 객체가 보이는 방식을 비교하여 3D 구조를 이해하는 데 도움이 됩니다. 공간 추론을 향상시키는 데 사용할 수 있으며, 로봇이 역동적인 환경에서 객체와 더 잘 상호 작용할 수 있도록 합니다.
__wf_reserved_inherit
Fig 5. Gemini Robotics-ER은 다양한 작업을 처리할 수 있습니다.

Google Gemini 로보틱스 모델의 응용 분야

이제 Gemini Robotics 및 Gemini Robotics-ER의 주요 기능에 대해 논의했으므로 다양한 산업 분야에서 실제 응용 분야를 살펴보겠습니다.

Google Gemini Robotics는 제조 분야에서 사용될 수 있습니다.

제조의 경우 정밀성과 속도가 중요하지만 적응성은 모든 것을 원활하게 실행하는 데 중요한 요소입니다. 예를 들어 Gemini 기반 산업용 로봇은 올바른 구성 요소를 식별하고, 올바르게 배치하고, 정밀한 힘으로 유연한 고무 밴드를 처리하여 풀리 시스템을 조립할 수 있습니다. 

밴드를 늘리고, 풀리 주위로 고리를 만들고, 파손이나 정렬 불량 없이 고정할 수 있습니다. 설정이 변경되거나 작업이 달라지면 로봇은 광범위한 재프로그래밍 없이도 적응할 수 있습니다. 이 스마트 자동화는 오류를 줄이고 효율성을 높이며 제조 공정을 원활하게 유지합니다.

__wf_reserved_inherit
Fig 6. 양팔 산업용 로봇이 풀리 시스템에 고무 밴드를 정확하게 장착하는 모습입니다.

Gemini Robotics로 구현되는 스마트 홈

바쁜 일정으로 인해 집안일을 따라잡기 어려울 수 있습니다. 스마트 로봇은 청소, 식료품 정리, 심지어 식사 준비와 같은 작업을 처리하여 일상 생활을 더 쉽게 만들 수 있습니다. 

이것은 로봇이 도시락 가방을 싸면서 과일이나 캔과 같은 깨지기 쉬운 품목을 보호하기 위해 잡는 힘을 조절하면서 신중하게 음식 품목을 선택하고 넣는 모습과 같습니다. 배열이 변경되더라도 로봇은 스스로 적응하여 최소한의 감독으로 일상적인 집안일을 덜 수 있습니다.

__wf_reserved_inherit
Fig 7. 도시락 가방을 조심스럽게 포장하는 인간형 로봇.

Gemini Robotics 활용의 장단점 

Gemini Robotics는 정밀 제조에서 스마트 홈 지원에 이르기까지 로봇이 할 수 있는 일을 확장하고 있습니다. 다음은 다양한 애플리케이션에서 Gemini Robotics를 사용할 때의 주요 이점입니다. 

  • 최소한의 학습 요구 사항: 기존 로봇과는 달리 Gemini Robotics 기반 로봇은 몇 번의 시연만으로 학습할 수 있어 학습 비용을 줄이고 배포가 더 쉽습니다.

  • 향상된 안전성: 위험한 환경에서 Gemini Robotics와 통합된 로봇은 위험한 작업을 수행하여 인간 작업자의 부상 위험을 줄일 수 있습니다.
  • 맞춤형 기능: Gemini Robotics의 유연성은 다양한 산업 또는 개별 비즈니스의 특정 요구 사항을 충족하도록 맞춤화할 수 있음을 의미하며, 특수화된 애플리케이션과 고유한 솔루션을 가능하게 합니다.

Gemini Robotics는 여러 가지 이점을 제공하지만 다음과 같은 제한 사항을 해결하는 것도 중요합니다.

  • 공간 관계 문제: 이러한 모델은 긴 비디오 시퀀스에서 공간 관계를 추적하는 데 어려움을 겪을 수 있으며, 이는 시간이 지남에 따라 객체를 추적하고 이해하는 능력에 영향을 미칩니다.
  • 수치 정밀도 부족: 모델의 예측(예: 점 및 경계 상자)이 섬세한 로봇 작업과 같이 정밀한 제어가 필요한 작업에 충분히 정확하지 않을 수 있습니다.
  • 복잡한 작업: Gemini Robotics는 다단계 추론과 정확한 움직임이 필요한 복잡한 작업을 처리하는 데 어려움을 겪을 수 있으며, 특히 새롭거나 익숙하지 않은 상황에서 더욱 그렇습니다. 

로봇 공학에서 AI의 미래

AI가 계속 발전함에 따라 Gemini Robotics 및 Gemini Robotics-ER과 같은 모델은 로봇 공학의 미래을 주도하고 있습니다. 향후 개선 사항은 다단계 추론을 향상시켜 로봇이 작업을 보다 논리적인 단계로 나누어 더 큰 정밀도를 확보하는 데 중점을 둘 가능성이 큽니다.

Google DeepMind가 개발하려는 또 다른 핵심 영역은 시뮬레이션 기반 훈련입니다. 로봇은 실제 환경에 배포하기 전에 가상 환경에서 학습함으로써 의사 결정 및 움직임을 개선하고 실제 응용 분야에서 오류를 최소화할 수 있습니다.

이러한 기술이 발전함에 따라, 로봇이 더욱 자율적이고 적응력이 뛰어나며 일상생활에서 인간과 함께 원활하게 작업할 수 있는 미래를 위한 길을 열 수 있습니다.

주요 내용

Gemini Robotics는 디지털 지능과 실제 물리적 작업을 연결하여 AI 기반 자동화에서 큰 진전을 이루었습니다. 시각, 언어 및 행동 기반 학습을 결합하여 이러한 로봇은 정밀성과 적응력으로 복잡한 작업을 처리할 수 있습니다. 

로봇이 계속해서 더 똑똑해짐에 따라 일상 생활에서 더 큰 역할을 수행하여 인간과 기계가 협력하는 방식을 바꿀 가능성이 높습니다. 이러한 발전은 AI 기반 자동화가 산업과 일상 업무를 모두 향상시키는 지능적이고 더 연결된 세상에 우리를 더 가깝게 만들고 있습니다.

성장하는 커뮤니티에 참여하세요! GitHub 저장소를 방문하여 AI에 대해 자세히 알아보세요. 컴퓨터 비전 프로젝트를 시작하고 싶으신가요? 라이선스 옵션을 살펴보세요. 솔루션 페이지에서 제조업의 AI자동차 산업의 Vision AI에 대해 자세히 알아보세요!

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.