YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
비전 AI

Google Gemini Robotics 모델이 더 스마트한 로봇을 구동합니다

Google Gemini Robotics가 멀티모달 지능을 통해 AI 기반 로봇을 강화하여 적응성, 민첩성, 원활한 인간 상호 작용을 어떻게 향상하는지 살펴보십시오.

ABAbirami Vina
4 min read
더 스마트한 로봇을 구동하는 Google Gemini Robotics 모델

수십 년 동안 로봇은 연구소, SF 영화, 최첨단 산업 시제품 전시회에 등장하며 미래를 상징해 왔습니다. 이제 최근의 인공지능(AI) 발전 덕분에, 이러한 시제품들은 통제된 환경을 넘어 실제 애플리케이션으로 나아가고 있습니다.

구체적으로 구글은 Gemini Robotics를 통해 더 똑똑한 로봇을 구축하는 데 필요한 기술에 한 걸음 더 다가서고 있습니다. 2025년 3월 12일에 출시된 Gemini Robotics 모델과 그 동반 모델인 Gemini Robotics-ER(Embodied Reasoning, 체화된 추론)은 구글 딥마인드(Google DeepMind)의 최신 혁신 기술입니다.

이 모델들은 텍스트, 이미지, 오디오, 비디오를 포함한 다양한 유형의 데이터를 처리하고 생성하여 보다 다재다능하고 자연스러운 상호작용을 촉진하는 멀티모달 거대 언어 모델(LLM)인 Gemini 2.0을 기반으로 구축되었습니다. 이 모델들은 Gemini 2.0의 멀티모달 기능을 물리적 세계로 가져와 더욱 민첩하고 상호작용적이며 지능적인 로봇을 구현합니다.

예를 들어, 고정된 지침을 따르는 기존 로봇과 달리 Gemini Robotics 모델이 통합된 로봇은 시각과 언어를 처리할 수 있습니다. 이를 통해 로봇은 실시간으로 결정을 내리고 변화하는 환경에 적응할 수 있습니다.

이 글에서는 Gemini Robotics와 Gemini Robotics-ER에 대해 살펴보고, 이 모델들의 작동 방식과 주요 기능 및 애플리케이션을 알아봅니다. 바로 시작해 보겠습니다!

Gemini Robotics가 로봇의 다중 작업 수행을 효율적으로 돕는 모습

그림 1. Gemini Robotics는 로봇이 여러 작업을 효율적으로 수행하도록 돕습니다.

Link to this sectionGoogle Gemini Robotics 소개#

구글의 Gemini Robotics는 로봇이 물리적 세계를 인식하고 추론하며 상호작용할 수 있는 능력을 제공하도록 설계된 고급 AI 모델입니다. 시각-언어-행동(VLA) 모델로서, 로봇이 지침을 처리하고 환경을 해석하며 높은 정밀도로 복잡한 작업을 실행할 수 있게 합니다.

한편 Gemini Robotics-ER 모델은 물체의 위치가 어떻게 지정되고, 어떻게 움직이며, 어떻게 상호작용하는지에 대한 공간적 관계를 이해하는 로봇의 능력을 향상시킵니다. 이는 로봇이 동작을 예측하고 그에 따라 움직임을 조정하는 데 도움을 줍니다.

예를 들어, 로봇이 헤드폰에 전선을 감아야 하는 작업을 고려해 보겠습니다. Gemini Robotics-ER은 장면을 이해하고, 전선의 모양과 유연성을 인식하며, 헤드폰의 구조를 식별하고, 움직임에 따라 전선이 어떻게 구부러질지 예측하도록 돕습니다. 그런 다음 Gemini Robotics는 이러한 이해를 행동으로 변환하여 양손을 조율해 전선을 부드럽게 조작하고, 엉키지 않도록 그립을 조정하며, 안전하게 감기도록 합니다.

Gemini Robotics와 Gemini Robotics-ER은 인지와 행동을 결합함으로써 로봇이 역동적인 환경에서 복잡한 작업을 효율적으로 수행할 수 있게 하는 지능형 시스템을 구축합니다.

Gemini Robotics 모델 제품군 개요

그림 2. Gemini Robotics 모델 제품군 개요입니다.

Link to this section로봇 공학의 AI: Gemini Robotics의 작동 방식 탐구#

다음으로 각 모델을 자세히 살펴보고 Gemini Robotics와 Gemini Robotics-ER이 어떻게 협력하여 유연성과 빠른 행동 사이의 균형을 맞추는지 더 잘 이해해 보겠습니다.

한 가지 측면에서 Gemini Robotics-ER은 제로샷 코드 생성(Zero-shot code generation)과 퓨샷 인컨텍스트 학습(Few-shot in-context learning, ICL)이라는 두 가지 핵심 메커니즘을 활용합니다. 제로샷 코드 생성을 통해 모델은 추가 학습 없이도 작업 지침, 이미지, 실시간 데이터를 기반으로 로봇 제어 코드를 생성할 수 있습니다.

마찬가지로 퓨샷 학습을 통해 모델은 단 몇 개의 예제만으로 새로운 작업에 적응하여 광범위한 학습의 필요성을 줄입니다. 이러한 방법들은 로봇이 복잡한 작업을 신속하게 수행하고 최소한의 노력으로 새로운 문제에 적응할 수 있게 합니다.

반면 Gemini Robotics는 속도와 효율성을 위해 구축되었습니다. 클라우드 기반 백본과 온보드 행동 디코더로 구성된 하이브리드 시스템을 사용합니다. 클라우드 기반 백본은 정보를 빠르게 처리하며, 쿼리 응답 지연 시간은 160밀리초 미만입니다.

그런 다음 온보드 디코더는 이 데이터를 실시간 행동으로 변환하도록 돕습니다. 이 통합 시스템은 약 250밀리초의 전체 응답 시간과 초당 50회 행동이라는 제어 속도를 달성합니다.

Gemini Robotics가 실시간 로봇 제어를 지원하는 방식

그림 3. Gemini Robotics가 실시간 로봇 제어를 지원하는 방식에 대한 이해.

Link to this sectionGemini Robotics의 주요 기능#

Gemini Robotics의 주요 특징을 간략히 소개합니다:

  • 범용성: 조명, 배경, 물체의 변화에 적응하면서도 정확성을 유지할 수 있습니다. 또한 의역되거나 다국어로 된 명령을 이해하고 다양한 조건에 맞게 움직임을 조정할 수 있습니다.

  • 상호작용성: 이 모델은 광범위한 자연어 명령을 처리하고 직관적으로 대응할 수 있습니다. 또한 환경의 실시간 변화에 따라 행동을 조정하여 인간-로봇 협업에 이상적입니다.

  • 민첩성: 이 모델로 구동되는 로봇은 종이접기나 섬세한 물체 다루기와 같은 복잡하고 정밀한 작업을 수행할 수 있습니다. 단계별 프로세스든 빠른 행동이든, 모델은 이를 효율적으로 실행하도록 도울 수 있습니다.

  • 다양한 형태 지원: 양팔 시스템, 휴머노이드 로봇 등 다양한 로봇 플랫폼에서 미세 조정이 거의 없이 작동합니다. 높은 성능을 유지하면서 새로운 작업에 빠르게 적응합니다.

다양한 로봇 플랫폼에서 작동하는 Google Gemini Robotics

그림 4. Google Gemini Robotics는 다양한 로봇 플랫폼에서 작동합니다.

Link to this sectionGemini Robotics-ER의 주요 기능#

로봇이 세상을 이해하고 상호작용하도록 돕는 Gemini Robotics-ER의 주요 기능은 다음과 같습니다:

  • 객체 감지 및 추적: 2D 및 3D 공간 모두에서 물체를 식별하고 추적하는 데 사용할 수 있습니다. 자연어 쿼리를 사용하여 로봇이 유형, 위치, 기능에 따라 물체를 찾고 위치를 예측하도록 돕습니다.

  • 포인팅: 이 기능은 모델이 정확한 좌표를 사용하여 이미지 내의 특정 물체나 부품을 정확히 찾아낼 수 있게 합니다. 로봇이 전체 물체, 물체의 일부, 심지어 빈 공간을 찾는 데 도움을 주는 데 사용할 수 있습니다.

  • 잡기(Grasp) 예측: Gemini Robotics-ER은 물체의 모양과 기능에 따라 물체를 잡는 최적의 방법을 결정하는 데 사용할 수 있습니다. 바나나든 컵 손잡이든 어디를 잡아야 할지 예측하여 로봇이 물건을 조심스럽게 다룰 수 있게 합니다.

  • 궤적 추론: 이 모델은 일련의 행동을 예측하여 이동 경로를 계획하는 데 사용될 수 있습니다. 예를 들어, 로봇 손을 도구 쪽으로 안내하거나 특정 작업의 웨이포인트(waypoint)를 정의하여 로봇이 작업을 효율적으로 완료하도록 도울 수 있습니다.

  • 다중 뷰 대응: 이 기능은 물체가 다른 각도에서 어떻게 보이는지 비교하여 3D 구조를 이해하도록 모델을 돕습니다. 공간 추론을 향상시켜 로봇이 역동적인 환경에서 물체와 더 잘 상호작용할 수 있도록 하는 데 사용될 수 있습니다.

다양한 작업을 처리하는 Gemini Robotics-ER

그림 5. Gemini Robotics-ER은 다양한 작업을 처리할 수 있습니다.

Link to this sectionGoogle Gemini Robotics 모델의 애플리케이션#

Gemini Robotics와 Gemini Robotics-ER의 주요 기능을 논의했으므로, 이제 다양한 산업 전반에 걸친 실제 애플리케이션을 살펴보겠습니다.

Link to this section제조 분야에 활용되는 Google Gemini Robotics#

제조 분야에서는 정밀도와 속도가 중요하지만, 모든 것이 원활하게 작동하게 만드는 핵심은 적응성입니다. 예를 들어, Gemini로 구동되는 산업용 로봇은 올바른 부품을 식별하고, 정확하게 배치하며, 유연한 고무 밴드를 정밀한 힘으로 다루어 풀리 시스템을 조립할 수 있습니다.

로봇은 밴드를 늘리고, 풀리 주변으로 루프를 만들어 끊어지거나 어긋남 없이 고정할 수 있습니다. 설정이 변경되거나 작업이 달라져도 로봇은 광범위한 재프로그래밍 없이 적응할 수 있습니다. 이러한 스마트 자동화는 오류를 줄이고 효율성을 향상시키며 제조 프로세스를 원활하게 유지합니다.

풀리 시스템에 고무 밴드를 장착하는 양팔 산업용 로봇

그림 6. 양팔 산업용 로봇이 풀리 시스템에 고무 밴드를 정밀하게 장착하고 있습니다.

Link to this sectionGemini Robotics가 구현하는 스마트 홈#

바쁜 일정으로 인해 집안일을 따라잡기가 어려울 수 있습니다. 스마트 로봇은 청소, 식료품 정리, 심지어 식사 준비까지 돕는 작업을 수행하여 일상 생활을 더 편리하게 만들 수 있습니다.

이는 로봇이 도시락 가방을 싸고, 과일이나 캔과 같은 깨지기 쉬운 물건을 보호하기 위해 그립을 조정하면서 음식을 조심스럽게 선택하고 배치하는 모습일 수 있습니다. 배치가 바뀌더라도 로봇은 스스로 적응하여 최소한의 관리만으로 일상적인 집안일을 완화할 수 있습니다.

도시락 가방을 신중하게 포장하는 휴머노이드 로봇

그림 7. 휴머노이드 로봇이 도시락 가방을 조심스럽게 싸고 있습니다.

Link to this sectionGemini Robotics 활용의 장단점#

Gemini Robotics는 정밀 제조부터 스마트 홈 지원에 이르기까지 로봇이 할 수 있는 일을 확장하고 있습니다. 다양한 애플리케이션에서 Gemini Robotics를 사용할 때 얻을 수 있는 주요 이점은 다음과 같습니다:

  • 최소한의 학습 요구 사항: 기존 로봇과 달리 Gemini Robotics로 구동되는 로봇은 몇 번의 시연만으로 학습할 수 있어 학습 비용을 절감하고 배포를 더 쉽게 만듭니다.
  • 강화된 안전: 위험한 환경에서 Gemini Robotics가 통합된 로봇은 위험한 작업을 수행할 수 있어 인간 작업자의 부상 위험을 줄입니다.
  • 사용자 정의 가능한 기능: Gemini Robotics의 유연성은 다양한 산업이나 개별 기업의 특정 요구 사항에 맞춰 조정될 수 있음을 의미하며, 전문화된 애플리케이션과 독특한 솔루션을 가능하게 합니다.

Gemini Robotics는 여러 가지 이점을 제공하지만, 다음의 제한 사항을 해결하는 것도 중요합니다:

  • 공간 관계 문제: 이 모델들은 긴 비디오 시퀀스에서 공간적 관계를 추적하는 데 어려움을 겪을 수 있으며, 이는 시간이 지남에 따라 물체를 추적하고 이해하는 능력에 영향을 미칩니다.
  • 수치적 정밀도 부족: 포인트와 경계 상자(BBox)와 같은 모델의 예측은 섬세한 로봇 작업과 같이 미세한 제어가 필요한 작업에는 충분히 정밀하지 않을 수 있습니다.
  • 복잡한 작업: Gemini Robotics는 특히 새롭거나 낯선 상황에서 다단계 추론과 정밀한 움직임이 필요한 복잡한 작업을 처리하는 데 어려움을 겪을 수 있습니다.

Link to this section로봇 공학의 AI 미래#

AI가 계속 발전함에 따라 Gemini Robotics 및 Gemini Robotics-ER과 같은 모델이 로봇 공학의 미래를 주도하고 있습니다. 향후 개선 사항은 다단계 추론을 강화하여 로봇이 더 높은 정밀도를 위해 작업을 논리적인 단계로 나눌 수 있도록 하는 데 초점을 맞출 것입니다.

구글 딥마인드가 계획 중인 또 다른 핵심 개발 영역은 시뮬레이션 기반 학습입니다. 실제 배포 전에 가상 환경에서 학습함으로써 로봇은 의사 결정과 움직임을 정교화하여 실제 애플리케이션에서의 오류를 최소화할 수 있습니다.

이러한 기술이 진화함에 따라 로봇이 더욱 자율적이고 적응력이 뛰어나며 일상 생활에서 인간과 원활하게 함께 일할 수 있는 미래를 위한 길을 열 수 있습니다.

Link to this section핵심 요약#

Gemini Robotics는 디지털 지능과 실제 물리적 작업을 연결하는 AI 기반 자동화의 큰 도약입니다. 시각, 언어, 행동 기반 학습을 결합함으로써 이러한 로봇은 복잡한 작업을 정밀하고 적응력 있게 처리할 수 있습니다.

로봇이 계속 똑똑해짐에 따라 로봇은 일상 생활에서 더 큰 역할을 수행하게 될 것이며, 인간과 기계가 협력하는 방식을 변화시킬 것입니다. 이러한 발전은 AI 기반 자동화가 산업과 일상 작업 모두를 향상시키는 지능적이고 더 연결된 세계에 한 걸음 더 다가가게 합니다.

성장하는 저희 커뮤니티의 일원이 되십시오! GitHub 저장소를 방문하여 AI에 대해 더 깊이 알아보세요. 자신만의 컴퓨터 비전 프로젝트를 시작하고 싶으신가요? 저희 라이선스 옵션을 살펴보세요. 저희 솔루션 페이지에서 제조업에서의 AI자동차 산업에서의 Vision AI에 대해 자세히 알아보세요!

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.