화상 통화와 가상 회의는 원격 근무를 가능하게 하여 국가와 시간대에 상관없이 팀원들이 서로 연결 상태를 유지할 수 있도록 도와줍니다. 이제 화상 통화는 우리 생활의 일부가 되었으며 커뮤니케이션 방식에 변화를 가져왔습니다.
그러나 광범위한 사용에도 불구하고 화상 회의의 핵심 기술은 수년 동안 거의 변하지 않았습니다. 최근의 발전 덕분에 화상 회의 플랫폼은 보다 자연스럽고 생생한 느낌을 목표로 변화를 시작하고 있습니다.
구글은 연례 개발자 컨퍼런스(Google I/O 2025)에서 새로운 화상 커뮤니케이션 도구인 Google 빔을 소개했습니다. 빔은 인공 지능(AI) 과 3D 화상 회의 기술을 사용하여 기존의 평면 스크린을 넘어 더욱 몰입감 있는 대면 경험을 선사합니다.
실제로 Google 빔은 대화 상대가 바로 앞에 있는 것처럼 느껴지도록 설계되었습니다. 일반 화상 통화와 달리, 평면 화면에서는 놓치기 쉬운 눈 맞춤과 시선에 따라 움직이는 자연스러운 움직임 등 미묘한 사람의 신호를 되살려줍니다.
이 도움말에서는 Google 빔의 정의, 개발 방법, 작동 방식 및 활용 방법에 대해 자세히 살펴봅니다. 시작해 보겠습니다!
Google 빔을 자세히 살펴보기 전에 그 이전 버전인 프로젝트 스타라인에 대해 더 잘 이해해 보겠습니다.
Google I/O 2021에서 소개된 프로젝트 스타라인은 원격 커뮤니케이션을 마치 같은 공간에 있는 것처럼 생생하게 느끼도록 하는 것을 목표로 하는 연구 이니셔티브였습니다. 실물 크기의 3D 이미지를 실시간으로 생성하는 방식으로 작동했습니다. 이 기술은 많은 관심을 끌었지만 복잡한 설정과 무거운 하드웨어가 필요했습니다.
수년에 걸쳐 기술이 발전함에 따라 Google은 소프트웨어를 개선하고 하드웨어를 간소화했습니다. 4년간의 개발 끝에 프로젝트 스타라인은 더욱 컴팩트하고 사용자 친화적인 솔루션인 Google 빔으로 진화했습니다.
Google 빔은 AI를 사용하여 대화 상대방의 모습을 더욱 사실적이고 3D와 같은 이미지로 만들어 화상 통화를 향상시킵니다. 일반 2D 영상을 다양한 각도에 따라 조정되는 뷰로 전환하여 눈을 맞추고 얼굴 표정을 더 잘 볼 수 있도록 도와줍니다. 또한 실시간 번역, 헤드 트래킹, 공간 오디오와 같은 기능도 포함되어 있습니다.
Google 빔은 증강 현실(AR) 또는 가상 현실(VR) 헤드셋과 같은 추가 액세서리 없이도 작동하도록 개발되었습니다. 대신 자체 디스플레이, 카메라 시스템, 하드웨어가 내장되어 있어 3D 영상을 구현할 수 있습니다. 따라서 일반적인 화상 회의보다 더 자연스럽고 편안하며 몰입감 있는 화상 통화가 가능합니다.
이제 Google 빔이 어떻게 탄생하게 되었는지 살펴보았으니 작동 원리를 자세히 살펴보겠습니다.
모든 것은 시각적 정보를 캡처하는 것에서 시작됩니다. Beam은 6개의 고해상도 카메라를 사용하여 다양한 각도에서 동시에 사진을 촬영합니다.
이러한 카메라는 얼굴 특징, 몸짓, 작은 움직임을 실시간으로 추적하는 데 도움이 됩니다. AI는 카메라 설정을 최적화하고 모든 비디오 피드를 완벽하게 동기화함으로써 핵심적인 역할을 합니다. 이를 통해 다음 단계인 데이터 처리를 위한 시스템을 준비합니다.
그런 다음 AI를 사용하여 6개의 2D 카메라 피드를 결합하여 시야에 보이는 인물의 실시간 3D 모델을 생성합니다. 단순히 2D 이미지를 레이어링하는 것이 아니라 깊이, 그림자, 공간 관계를 재구성하여 완전한 3D 디지털 트윈을 생성합니다.
이 3D 모델을 구축하기 위해 Beam은 깊이 추정 및 모션 트래킹과 같은 AI 및 컴퓨터 비전 기술을 사용합니다. 이러한 방법은 사람이 카메라로부터 얼마나 멀리 떨어져 있는지, 어떻게 움직이는지, 몸의 위치가 어떻게 되는지 파악하는 데 도움이 됩니다. 이 데이터를 통해 시스템은 얼굴 특징과 신체 부위를 3D 공간에 정확하게 매핑할 수 있습니다.
Beam의 AI 모델은 초당 60프레임(FPS) 으로 3D 표현을 업데이트하여 대화를 부드럽고 생생하게 유지합니다. 또한 상대방의 움직임을 정확하게 반영하기 위해 실시간으로 조정합니다.
3D 모델은 라이트필드 디스플레이를 사용하여 수신기의 빔 시스템에 표시됩니다. 양쪽 눈에 동일한 이미지를 표시하는 기존 스크린과 달리 라이트필드 디스플레이는 각 눈에 조금씩 다른 이미지를 방출하여 실제 생활에서 우리가 깊이를 인지하는 방식을 시뮬레이션합니다. 이를 통해 보다 사실적이고 입체적인 시각적 경험을 제공합니다.
Google 빔의 가장 인상적인 기능 중 하나는 실시간 AI 추적 기능입니다. 이 시스템은 정밀한 헤드 트래킹과 아이 트래킹을 사용하여 아주 작은 움직임까지 추적합니다.
예를 들어, 빔의 AI 엔진은 사용자의 머리 위치를 지속적으로 추적하여 실시간으로 이미지를 미세하게 조정할 수 있습니다. 이를 통해 화면 속 인물이 실제로 사용자의 맞은편에 앉아 있는 듯한 인상을 줍니다. 사용자가 고개를 움직이면 실제 얼굴을 맞대고 대화할 때처럼 3D 이미지가 그에 따라 움직입니다.
또한 빔은 화면에서 사람이 나타나는 위치와 일치하는 공간 사운드를 사용하여 오디오 환경을 개선합니다. 누군가가 디스플레이의 왼쪽에 있으면 그 사람의 목소리가 왼쪽에서 나오는 것처럼 들립니다. 위치를 이동하면 오디오도 그에 맞춰 조정됩니다. 따라서 대화가 더욱 자연스럽게 느껴지고 뇌가 별도의 노력 없이도 말하는 사람을 따라갈 수 있습니다.
이는 지향성 오디오 기술과 실시간 트래킹을 결합하여 작동합니다. 빔은 공간 오디오를 사용하여 소리가 나오는 방향과 각 귀에 도달하는 방식에 따라 현실 세계에서 우리가 자연스럽게 소리를 인지하는 방식을 시뮬레이션합니다. 또한 시청자의 머리 움직임을 추적하고 그에 따라 오디오 출력을 조정하여 화면 속 인물에게 소리가 '밀착'된 상태로 유지되도록 합니다.
구글 빔은 아직 초기 단계이지만 화상 회의 분야에서 유망한 잠재력을 보여주고 있습니다. 다음은 몇 가지 주요 애플리케이션입니다:
Google 빔과 같은 혁신이 가져다주는 주요 이점은 다음과 같습니다:
빔은 유망한 진전이지만 다른 신기술과 마찬가지로 몇 가지 한계가 있습니다. 다음은 몇 가지 고려해야 할 사항입니다:
Google 빔은 가상 커뮤니케이션을 보다 인간적인 느낌으로 만들기 위한 흥미로운 발걸음입니다. 아직 초기 단계이지만 우리가 만나고, 연결하고, 협업하는 방식을 변화시킬 수 있는 잠재력을 가지고 있습니다. 고급 AI, 3D 이미징, 공간 오디오를 결합하여 더욱 생생하고 매력적인 원격 경험을 제공합니다.
Google은 Beam의 하드웨어를 지속적으로 개선하고, 더 작게 만들고, 일반 사용자들에게도 제공하면서 가상 커뮤니케이션의 미래에 대한 흥미로운 가능성을 제시하고 있습니다. 홀로그램 회의 및 3D 아바타와 같은 새로운 기술 트렌드와 함께 Beam은 가상 회의의 새로운 표준을 제시하고 있습니다.
지금 바로 커뮤니티에 가입하고 라이선스 옵션을 살펴보고 컴퓨터 비전을 시작하세요. AI에 대해 자세히 알아보려면 GitHub 리포지토리를 확인하세요. 솔루션 페이지에서 소매업에서의 AI 활용 사례와 농업에서의 컴퓨터 비전 활용 사례에 대한 인사이트를 확인하세요.