차세대 3D 화상 회의 도구인 Google Beam 살펴보기

아비라미 비나

4분 읽기

2025년 6월 19일

차세대 3D 화상 회의 도구인 Google Beam에 대해 알아보세요. 3D 이미징과 AI를 사용하여 실제와 같은 몰입감 넘치는 가상 회의를 지원하는 방법을 살펴보세요.

화상 통화와 가상 회의는 원격 근무를 가능하게 하여 국가와 시간대에 상관없이 팀원들이 서로 연결 상태를 유지할 수 있도록 도와줍니다. 이제 화상 통화는 우리 생활의 일부가 되었으며 커뮤니케이션 방식에 변화를 가져왔습니다.

그러나 광범위한 사용에도 불구하고 화상 회의의 핵심 기술은 수년 동안 거의 변하지 않았습니다. 최근의 발전 덕분에 화상 회의 플랫폼은 보다 자연스럽고 생생한 느낌을 목표로 변화를 시작하고 있습니다.

구글은 연례 개발자 컨퍼런스(Google I/O 2025)에서 새로운 화상 커뮤니케이션 도구인 Google 빔을 소개했습니다. 빔은 인공 지능(AI) 과 3D 화상 회의 기술을 사용하여 기존의 평면 스크린을 넘어 더욱 몰입감 있는 대면 경험을 선사합니다.

그림 1. 구글의 CEO 순다르 피차이가 구글 빔을 소개하는 모습(출처).

실제로 Google 빔은 대화 상대가 바로 앞에 있는 것처럼 느껴지도록 설계되었습니다. 일반 화상 통화와 달리, 평면 화면에서는 놓치기 쉬운 눈 맞춤과 시선에 따라 움직이는 자연스러운 움직임 등 미묘한 사람의 신호를 되살려줍니다.

이 도움말에서는 Google 빔의 정의, 개발 방법, 작동 방식 및 활용 방법에 대해 자세히 살펴봅니다. 시작해 보겠습니다!

프로젝트 스타라인에서 구글 빔으로 전환하기

Google 빔을 자세히 살펴보기 전에 그 이전 버전인 프로젝트 스타라인에 대해 더 잘 이해해 보겠습니다.

Google I/O 2021에서 소개된 프로젝트 스타라인은 원격 커뮤니케이션을 마치 같은 공간에 있는 것처럼 생생하게 느끼도록 하는 것을 목표로 하는 연구 이니셔티브였습니다. 실물 크기의 3D 이미지를 실시간으로 생성하는 방식으로 작동했습니다. 이 기술은 많은 관심을 끌었지만 복잡한 설정과 무거운 하드웨어가 필요했습니다.

그림 2. 프로젝트 스타라인 살펴보기(출처).

수년에 걸쳐 기술이 발전함에 따라 Google은 소프트웨어를 개선하고 하드웨어를 간소화했습니다. 4년간의 개발 끝에 프로젝트 스타라인은 더욱 컴팩트하고 사용자 친화적인 솔루션인 Google 빔으로 진화했습니다.

Google 빔은 AI를 사용하여 대화 상대방의 모습을 더욱 사실적이고 3D와 같은 이미지로 만들어 화상 통화를 향상시킵니다. 일반 2D 영상을 다양한 각도에 따라 조정되는 뷰로 전환하여 눈을 맞추고 얼굴 표정을 더 잘 볼 수 있도록 도와줍니다. 또한 실시간 번역, 헤드 트래킹, 공간 오디오와 같은 기능도 포함되어 있습니다.

Google 빔 개요

Google 빔은 증강 현실(AR) 또는 가상 현실(VR) 헤드셋과 같은 추가 액세서리 없이도 작동하도록 개발되었습니다. 대신 자체 디스플레이, 카메라 시스템, 하드웨어가 내장되어 있어 3D 영상을 구현할 수 있습니다. 따라서 일반적인 화상 회의보다 더 자연스럽고 편안하며 몰입감 있는 화상 통화가 가능합니다.

그림 3. Google 빔 사용 예시(출처).

Google Beam으로 사실적인 가상 회의를 만드는 방법

이제 Google 빔이 어떻게 탄생하게 되었는지 살펴보았으니 작동 원리를 자세히 살펴보겠습니다.

몰입형 원격 협업을 위한 이미지 캡처

모든 것은 시각적 정보를 캡처하는 것에서 시작됩니다. Beam은 6개의 고해상도 카메라를 사용하여 다양한 각도에서 동시에 사진을 촬영합니다. 

이러한 카메라는 얼굴 특징, 몸짓, 작은 움직임을 실시간으로 추적하는 데 도움이 됩니다. AI는 카메라 설정을 최적화하고 모든 비디오 피드를 완벽하게 동기화함으로써 핵심적인 역할을 합니다. 이를 통해 다음 단계인 데이터 처리를 위한 시스템을 준비합니다.

2D 이미지를 3D 화상 회의로 전환

그런 다음 AI를 사용하여 6개의 2D 카메라 피드를 결합하여 시야에 보이는 인물의 실시간 3D 모델을 생성합니다. 단순히 2D 이미지를 레이어링하는 것이 아니라 깊이, 그림자, 공간 관계를 재구성하여 완전한 3D 디지털 트윈을 생성합니다.

이 3D 모델을 구축하기 위해 Beam은 깊이 추정 및 모션 트래킹과 같은 AI 및 컴퓨터 비전 기술을 사용합니다. 이러한 방법은 사람이 카메라로부터 얼마나 멀리 떨어져 있는지, 어떻게 움직이는지, 몸의 위치가 어떻게 되는지 파악하는 데 도움이 됩니다. 이 데이터를 통해 시스템은 얼굴 특징과 신체 부위를 3D 공간에 정확하게 매핑할 수 있습니다.

Beam의 AI 모델은 초당 60프레임(FPS) 으로 3D 표현을 업데이트하여 대화를 부드럽고 생생하게 유지합니다. 또한 상대방의 움직임을 정확하게 반영하기 위해 실시간으로 조정합니다.

그림 4. Google 빔의 6개의 카메라가 다양한 각도에서 이미지를 캡처합니다(출처).

구글 빔의 라이트 필드 디스플레이 시스템

3D 모델은 라이트필드 디스플레이를 사용하여 수신기의 빔 시스템에 표시됩니다. 양쪽 눈에 동일한 이미지를 표시하는 기존 스크린과 달리 라이트필드 디스플레이는 각 눈에 조금씩 다른 이미지를 방출하여 실제 생활에서 우리가 깊이를 인지하는 방식을 시뮬레이션합니다. 이를 통해 보다 사실적이고 입체적인 시각적 경험을 제공합니다.

그림 5. Google 빔을 통해 가상 하이파이브 교환하기(출처).

밀리미터 단위의 정확한 실시간 헤드 트래킹

Google 빔의 가장 인상적인 기능 중 하나는 실시간 AI 추적 기능입니다. 이 시스템은 정밀한 헤드 트래킹과 아이 트래킹을 사용하여 아주 작은 움직임까지 추적합니다. 

예를 들어, 빔의 AI 엔진은 사용자의 머리 위치를 지속적으로 추적하여 실시간으로 이미지를 미세하게 조정할 수 있습니다. 이를 통해 화면 속 인물이 실제로 사용자의 맞은편에 앉아 있는 듯한 인상을 줍니다. 사용자가 고개를 움직이면 실제 얼굴을 맞대고 대화할 때처럼 3D 이미지가 그에 따라 움직입니다.

AI 기반 가상 커뮤니케이션을 위한 오디오 처리

또한 빔은 화면에서 사람이 나타나는 위치와 일치하는 공간 사운드를 사용하여 오디오 환경을 개선합니다. 누군가가 디스플레이의 왼쪽에 있으면 그 사람의 목소리가 왼쪽에서 나오는 것처럼 들립니다. 위치를 이동하면 오디오도 그에 맞춰 조정됩니다. 따라서 대화가 더욱 자연스럽게 느껴지고 뇌가 별도의 노력 없이도 말하는 사람을 따라갈 수 있습니다.

이는 지향성 오디오 기술과 실시간 트래킹을 결합하여 작동합니다. 빔은 공간 오디오를 사용하여 소리가 나오는 방향과 각 귀에 도달하는 방식에 따라 현실 세계에서 우리가 자연스럽게 소리를 인지하는 방식을 시뮬레이션합니다. 또한 시청자의 머리 움직임을 추적하고 그에 따라 오디오 출력을 조정하여 화면 속 인물에게 소리가 '밀착'된 상태로 유지되도록 합니다. 

Google 빔의 애플리케이션

구글 빔은 아직 초기 단계이지만 화상 회의 분야에서 유망한 잠재력을 보여주고 있습니다. 다음은 몇 가지 주요 애플리케이션입니다:

  • 원격 협업: Google 빔을 사용하면 회의, 특히 리더십 토론이나 중요한 협상을 더욱 개인적이고 효과적으로 진행할 수 있습니다. 몸짓이나 눈 맞춤과 같은 미묘한 요소를 포착하여 멀리 떨어져 있어도 사람들이 더욱 현장감을 느낄 수 있도록 도와줍니다.
  • 교육: 빔은 가상 학습을 더욱 흥미롭고 접근하기 쉽게 만들 수 있는 잠재력을 가지고 있습니다. 과학자가 지구 반대편에 있는 학생들에게 라이브 강의를 하고 있는데, 실제로 같은 공간에 있는 것처럼 느껴진다고 상상해 보세요.
  • 헬스케어: 빔은 원격 상담을 더욱 친밀하게 만들 수 있습니다. 의사와 환자가 서로를 선명하게 보고 자연스럽게 눈을 마주칠 수 있으면 신뢰가 쌓이고 상호 작용이 더욱 인간적으로 느껴집니다.
    ↪f_200D↩
  • 크리에이티브 산업: 애니메이터, 아티스트, 프로듀서 등 창의적인 분야의 사람들은 Beam을 통해 원격 팀워크를 보다 쉽고 자연스럽게 느낄 수 있습니다. 아이디어를 브레인스토밍하거나 프로젝트를 검토할 때, 화상 통화보다 스튜디오에 함께 앉아 있는 듯한 느낌을 받을 수 있습니다.

Google 빔의 장단점

Google 빔과 같은 혁신이 가져다주는 주요 이점은 다음과 같습니다:

  • 헤드셋이 필요 없습니다: 다른 몰입형 기술과 달리 빔은 AR 또는 VR 헤드셋 없이도 작동합니다 . 따라서 멀미나 추가 장비 착용의 불편함 같은 일반적인 문제를 피하고 더욱 편안한 경험을 할 수 있습니다.
  • 화면 피로 감소: 3D 디스플레이는 보다 자연스럽고 편안한 시청 환경을 제공하여 평면 화면을 장시간 응시할 때보다 눈의 피로를 줄일 수 있습니다.
    ↪CF_200D↩
  • 실시간 언어 번역: Beam은 AI 기반 실시간 번역 기능을 통합하여 국제 회의나 학습 환경에서 서로 다른 언어를 사용하는 사람들이 자연스럽게 소통할 수 있도록 지원합니다.

빔은 유망한 진전이지만 다른 신기술과 마찬가지로 몇 가지 한계가 있습니다. 다음은 몇 가지 고려해야 할 사항입니다:

  • 하드웨어 요구 사항: 빔에는 라이트필드 디스플레이 및 여러 대의 카메라와 같은 특수한 하이엔드 장비가 필요하므로 개인 및 소규모 조직에서는 비용이 많이 들고 접근성이 떨어집니다.
    ↪f_200D↩
  • 휴대가 불가능합니다: 빔의 시스템은 고정 설치용으로 설계되어 쉽게 이동할 수 없으므로 이동 중이거나 변화하는 환경에서는 유연성과 사용이 제한됩니다.

주요 요점

Google 빔은 가상 커뮤니케이션을 보다 인간적인 느낌으로 만들기 위한 흥미로운 발걸음입니다. 아직 초기 단계이지만 우리가 만나고, 연결하고, 협업하는 방식을 변화시킬 수 있는 잠재력을 가지고 있습니다. 고급 AI, 3D 이미징, 공간 오디오를 결합하여 더욱 생생하고 매력적인 원격 경험을 제공합니다.

Google은 Beam의 하드웨어를 지속적으로 개선하고, 더 작게 만들고, 일반 사용자들에게도 제공하면서 가상 커뮤니케이션의 미래에 대한 흥미로운 가능성을 제시하고 있습니다. 홀로그램 회의 및 3D 아바타와 같은 새로운 기술 트렌드와 함께 Beam은 가상 회의의 새로운 표준을 제시하고 있습니다.

지금 바로 커뮤니티에 가입하고 라이선스 옵션을 살펴보고 컴퓨터 비전을 시작하세요. AI에 대해 자세히 알아보려면 GitHub 리포지토리를 확인하세요. 솔루션 페이지에서 소매업에서의 AI 활용 사례와 농업에서의 컴퓨터 비전 활용 사례에 대한 인사이트를 확인하세요. 

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기

무료로 시작하기
링크가 클립보드에 복사됨