YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024

Google Genie 3, AI로 3D 세계에 생기를 불어넣다

Abirami Vina

4분 소요

2025년 8월 15일

DeepMind의 Genie 3 AI 월드 모델은 텍스트 또는 이미지 프롬프트를 3D 환경으로 변환합니다. 이러한 발전은 인간과 유사한 지능을 향한 또 다른 단계를 의미합니다.

2025년 8월 5일, Google DeepMind는 Genie 3으로 알려진 Genie 모델의 최신 버전을 출시했습니다. 이는 사용자의 텍스트 프롬프트를 동적이고 상호 작용적인 환경으로 변환할 수 있는 새로운 AI 모델입니다. 

이러한 환경 또는 AI 세계를 통해 사용자는 비디오 게임에서와 마찬가지로 실시간으로 탐색하고 상호 작용할 수 있습니다. 또한 사용자는 추가 텍스트 프롬프트를 제공하여 환경을 확장하거나 수정할 수 있으므로 시뮬레이션을 다시 시작하지 않고도 즉석에서 변경할 수 있습니다. 

최신 Genie Google 모델이 특히 영향력이 큰 이유는 AI 에이전트를 학습시키는 데 사용할 수 있다는 것입니다. 여기에는 데이터와 피드백을 사용하여 AI 에이전트가 결정을 내리거나 작업을 수행하도록 가르치는 것이 포함됩니다. 실제 세계 대신 시뮬레이션된 3D 환경을 사용함으로써 연구자들은 실제 학습의 많은 어려움, 비용 및 위험을 피할 수 있습니다.

Google Genie 3는 악천후 속에서 자율 주행 자동차를 테스트하거나 산악 지형을 활공하는 윙수트와 같은 복잡한 시나리오도 시뮬레이션할 수 있습니다. 

이번 글에서는 Google Genie 3와 그 기능에 대해 살펴보겠습니다. 그럼 시작해 볼까요!

그림 1. 윙수트 글라이딩을 보여주는 Genie 3 시뮬레이션의 프레임입니다. (출처)

Google Genie 모델의 간략한 역사

Google DeepMind의 Genie 모델에 대해 자세히 알아보기 전에, 월드 모델이 무엇인지 더 잘 이해해 보겠습니다. 

세계 모델은 텍스트, 이미지, 비디오 및 움직임 데이터 세트에서 물리, 움직임 및 공간 관계와 같은 실제 규칙을 학습하는 AI 시스템입니다. 이를 통해 현실적인 장면을 만들고 진화 방식을 예측할 수 있습니다. Genie 모델은 이러한 시스템의 예입니다.

다음은 Genie 3의 길을 닦은 초기 Google Genie 모델에 대한 간략한 소개입니다.

  • Genie 1: 종종 Google Genie라고도 하는 Genie 1은 대화형 가상 환경을 만들 수 있는 Google DeepMind의 최초 AI 월드 모델이었습니다. 사용자는 텍스트, 이미지, 사진 또는 스케치로 세계를 설명할 수 있으며 Genie는 이를 생성하여 장면 내에서 작업을 제어할 수 있도록 합니다. 시간이 지남에 따라 비디오 데이터를 처리하고, 다음 프레임을 예측하고, 사용자 입력을 세계 내 액션으로 변환하도록 설계되었습니다.
  • Genie 2: Google Genie의 기능을 기반으로 구축된 Genie 2는 광범위하고 상세한 대화형 3D 세계를 만들 수 있습니다. 월드 모델로서 가상 환경을 시뮬레이션하고 점프, 수영 또는 물체 이동과 같은 액션에 현실적으로 반응했습니다. 방대한 비디오 컬렉션으로 훈련되었으며 현실적인 물체 상호 작용과 생생한 캐릭터 움직임이 특징입니다.

Genie 3란 무엇인가? Google의 새로운 AI 모델

이전 Genie 모델을 기반으로 하는 Genie 3는 시리즈 중 가장 최신이자 가장 발전된 모델입니다. 특히 새로운 가상 환경을 생성할 수 있는 Genie 2와 Google DeepMind의 최신 비디오 생성 모델인 Veo 3를 기반으로 합니다. Veo 3는 물리학과 실제 세계에서 객체가 상호 작용하는 방식에 대한 깊은 이해를 보여줍니다.

Veo 3는 하드 코딩된 물리 엔진을 사용하는 반면, Google Genie 3는 자기 지도 학습이라는 방법을 사용하여 물리가 작동하는 방식을 스스로 학습합니다. 이는 AI 모델이 자체 학습 신호를 생성하여 레이블이 지정되지 않은 데이터에서 패턴과 관계를 학습하는 AI 학습 기술입니다. 

Google Genie 3의 자체 지도 학습 기능은 AI 에이전트 또는 AI 로봇과 같은 AI 시스템이 다양한 작업을 처리하도록 훈련하는 데 매우 중요합니다. 실제로 Google DeepMind의 연구원들은 Genie 3를 범용인공지능(AGI)을 만드는 데 중요한 단계로 보고 있습니다. 

Fig 2. Google Genie 3을 사용하여 로봇 로버 제어를 시뮬레이션하는 예. (출처)

AGI는 인간과 마찬가지로 모든 작업이나 주제를 이해하고 학습하고 해당 지식을 다양한 상황에 적용할 수 있는 이론적인 형태의 AI입니다. 특정 작업을 위해 구축되고 기술을 새로운 문제로 이전하는 데 어려움을 겪는 오늘날의 인공 지능 모델과 달리 AGI는 광범위한 컨텍스트에서 적응하고 학습할 수 있습니다.

AI 월드 구축과 관련된 Google Genie 3의 주요 기능

Genie 3에서 지원하는 주요 기능은 다음과 같습니다:

  • 텍스트-3D 세계 생성: 간단한 텍스트 프롬프트(예: “거리를 걷는 로봇”)를 기본적인 움직임 컨트롤이 있는 플레이 가능한 3D와 유사한 환경으로 바꿀 수 있습니다.
  • 프롬프트 가능한 세계 이벤트: 사용자는 새로운 명령을 입력하여 환경을 동적으로 변경할 수 있습니다(예: 거리에 비 추가).
  • 시각적 기억: Genie 3는 환경에 남겨진 물체를 기억하고 나중에 다시 방문할 수 있도록 하며, 약 1분 동안 지속됩니다.
  • 부드럽고 일관된 비디오 출력: Genie 2에 비해 더 긴 사용 시간으로 720p 해상도에서 24 fps(초당 프레임 수)의 비디오 출력을 유지할 수 있습니다.
Fig 3. Google Genie 3는 Genie 2에서 생성된 결과보다 더 오래 지속되는 결과물을 생성할 수 있습니다. (출처)

교육에서 게임까지: Google DeepMind의 Genie 3 애플리케이션

Google Genie 3는 학습, 연구 및 훈련을 더욱 몰입감 있고 흥미롭게 만들 수 있습니다. 예를 들어 교실에서는 학생들이 고대 도시를 탐험하거나 우주를 여행하도록 하여 역사, 과학 또는 지리에 생기를 불어넣을 수 있습니다. 마찬가지로 인공 지능 개발자에게는 전략을 연습하고, 과제를 해결하고, 의사 결정 능력을 향상시킬 수 있는 현실적인 가상 세계를 제공합니다.

과학자들은 또한 아이디어를 테스트하고, 생태계를 연구하거나, 물체의 행동을 관찰하기 위해 제어된 시뮬레이션을 만드는 데 사용할 수 있습니다. 또 다른 흥미로운 응용 분야는 비디오 게임 개발입니다. 게임 개발자는 텍스트 프롬프트를 자세한 게임 세계로 전환하여 개발 속도를 높이고 대규모 팀의 필요성을 줄일 수 있습니다.

그림 4. 재미있고 다채로운 인터랙티브 게임을 Genie 3을 사용하여 디자인할 수 있습니다. (출처)

월드 모델로서의 Google Genie 3의 한계

Google Genie 3는 많은 기능과 이점을 제공하지만, 단점도 고려하는 것이 중요합니다. 

다음은 고려해야 할 몇 가지 제한 사항입니다.

  • 제한적인 행동 범위: 가상 세계에서 많은 이벤트를 트리거할 수 있지만, 모든 이벤트가 에이전트 자체에 의해 수행되는 것은 아닙니다. 에이전트가 직접 수행할 수 있는 행동은 여전히 제한적입니다.
  • 다른 에이전트와의 상호 작용: 동일한 환경에서 여러 독립적인 에이전트 간의 현실적인 상호 작용을 만드는 것은 여전히 진행 중인 작업입니다.
  • 실제 정확도: Google Genie 3는 아직 실제 위치를 완벽한 지리적 정밀도로 재현할 수 없습니다.

주요 내용

Google Genie 3는 AI를 통해 현실적이고 상호 작용적인 3D 세계를 만드는 데 있어 상당한 발전을 나타냅니다. 간단한 텍스트 프롬프트에서 아이디어를 현실로 만들고, 물리학을 시뮬레이션하고, 안전한 가상 공간에서 AI 시스템을 훈련할 수도 있습니다. 

여전히 한계는 있지만 연구, 게임, AI 개발에 대한 많은 가능성을 열어줍니다. 또한 인간처럼 생각하고 학습할 수 있는 AGI 시스템으로 나아가는 중요한 단계이기도 합니다.

AI에 대해 더 자세히 알고 싶으시면 GitHub 저장소를 확인해 보세요. 활발한 커뮤니티에 참여하여 소매업의 AI, 제조업의 Vision AI와 같은 분야의 혁신을 발견해 보세요. 오늘 바로 컴퓨터 비전을 시작하려면 라이선스 옵션을 확인해 보세요.

함께 미래의 AI를 만들어 갑시다!

미래의 머신러닝 여정을 시작하세요

무료로 시작하기
클립보드에 링크가 복사되었습니다.