深圳Yolo 视觉
深圳
立即加入

探索Google Beam:新一代 3D 视频会议工具

了解新一代 3D 视频会议工具Google Beam。了解它如何利用 3D 成像和人工智能实现栩栩如生、身临其境的虚拟会议。

视频通话和虚拟会议使远程工作成为可能,帮助团队跨国家和时区保持联系。它们已成为我们生活中的常规部分,并改变了我们的沟通方式。

然而,尽管视频会议被广泛使用,但其背后的核心技术多年来几乎没有变化。得益于近期的技术进步,视频会议平台正开始转型,力求提供更自然、更逼真的体验。

有趣的是,在其年度开发者大会Google I/O 2025)上,Google 推出了新的视频通信工具--Google Beam。Beam使用 人工智能(AI)和3D视频会议技术,超越了传统的平面屏幕,创造了更加身临其境的亲身体验。

图 1.Google首席执行官桑达尔-皮查伊介绍Google Beam(资料来源)。

事实上,Google Beam 的设计让人感觉通话对象就在眼前。与普通视频通话不同的是,谷歌 Beam 可以还原人与人之间微妙的暗示,比如眼神交流和随着视角移动的自然动作,而这些细节在平面屏幕上往往会丢失。

在本文中,我们将深入探讨什么是Google Beam、它是如何开发的、它是如何工作的以及它的应用。让我们开始吧!

从 Project Starline 到Google Beam

在进一步了解Google Beam 之前,我们先来了解一下它的前身 Project Starline。

在 2021 年Google I/O 大会上推出的 "星线项目 "是一项研究计划,旨在让远程通信更加逼真,几乎就像在同一个房间里一样。它的工作原理是实时创建真人大小的3D 人像。尽管这项技术吸引了大量关注,但它需要复杂的设置和笨重的硬件。

图 2. Project Starline 概览(来源)。

多年来,随着技术的进步,Google 对软件进行了改进,对硬件进行了精简。经过四年的发展,"星线项目 "已经演变成Google Beam--一种更紧凑、更方便用户使用的解决方案。

Google Beam 利用人工智能为通话对象创建更逼真的 3D 图像,从而增强视频通话效果。它能将普通的 2D 视频转化为可根据不同角度进行调整的视图,有助于保持目光接触,使面部表情更容易看清。它还包括实时翻译、头部跟踪和空间音频等功能。

Google 光束概述

Google 光束(Google Beam)的开发不需要额外的附件,如增强现实(AR)或虚拟现实(VR)头盔。相反,它配备了自己的内置显示屏、摄像系统和硬件,可以创建 3D 视觉效果。这使得视频通话感觉比一般的视频会议更自然、舒适和吸引人。

图 3.使用Google Beam 的示例(资料来源)。

Google Beam 如何创建逼真的虚拟会议

既然我们已经讨论了Google Beam 是如何诞生的,那么让我们来仔细看看它是如何工作的。

用于沉浸式远程协作的图像捕获

一切都始于捕获视觉信息。Beam 使用六个高分辨率摄像头同时从不同角度拍摄照片。 

这些摄像头有助于实时track 面部特征、肢体语言和细微动作。人工智能在优化摄像头设置和保持所有视频信号完全同步方面发挥着关键作用。这为下一阶段的数据处理做好了准备。

2D图像转3D视频会议

接下来,使用 AI 将六个 2D 摄像头馈送结合起来,以生成所观看人员的实时 3D 模型。它不是简单地分层 2D 图像,而是重建深度、阴影和空间关系,以创建完整的 3D 数字孪生。

为了构建这个 3D 模型,Beam 使用 AI 和计算机视觉技术,如深度估计和运动跟踪。这些方法有助于确定人与摄像头的距离、他们的移动方式以及他们的身体姿势。通过这些数据,系统可以在 3D 空间中准确地绘制面部特征和身体部位。

Beam 背后的 AI 模型以每秒 60 帧 (FPS) 的速度更新 3D 渲染,以保持对话的流畅和逼真。它还会进行实时调整,以准确反映人物的动作。

图 4.Google Beam 的六个摄像头从不同角度捕捉图像(资料来源)。

Google 光束的光场显示系统

3D 模型使用光场显示器显示在接收器的 Beam 系统上。与向双眼呈现相同图像的传统屏幕不同,光场显示器向每只眼睛发射略有不同的图像,模拟我们在现实生活中感知深度的方式。这创造了更逼真的三维视觉体验。

图 5.通过Google Beam 交换虚拟击掌(资料来源)。

实时毫米级精确头部追踪

Google Beam 最令人印象深刻的功能之一是其实时人工智能跟踪能力。该系统使用精确的头部和眼部追踪技术,能跟踪到最微小的动作细节。 

例如,Beam 的人工智能引擎可以持续track 用户的头部位置,并实时对图像进行微妙的调整。这样,屏幕上的人就会给人一种真实坐在你对面的感觉。当你移动头部时,3D 图像也会随之移动,就像真实的面对面交谈一样。

用于 AI 增强型虚拟通信的音频处理

Beam 还通过使用与屏幕上人员出现位置相匹配的空间声音来改善音频体验。如果某人位于显示器的左侧,他们的声音听起来就像来自左侧。当他们改变位置时,音频也会随之调整。这使得对话感觉更自然,并有助于您的大脑毫不费力地分辨出谁在说话。

这通过将定向音频技术与实时跟踪相结合来实现。Beam 使用空间音频来模拟我们在现实世界中自然感知声音的方式(基于声音的来源方向以及它如何到达每只耳朵)。该系统还会跟踪观看者的头部运动并相应地调整音频输出,因此声音会“附着”在屏幕上的人身上。 

Google 光束的应用

尽管Google Beam 仍处于早期阶段,但它在视频会议领域显示出了巨大的潜力。以下是它的一些主要应用:

  • 远程协作: Google Beam 可以让会议,尤其是领导层讨论或高风险谈判变得更加个性化和有效。通过捕捉肢体语言和眼神交流等微妙的因素,它可以帮助人们即使相隔遥远,也能感受到更多的存在感。
  • 教育: Beam 有潜力使虚拟学习更令人兴奋和更容易接受。想象一下,一位科学家向远在世界另一半的学生进行现场讲座,而学生们实际上感觉就像在同一个房间里。 
  • 医疗保健: Beam 可以使远程咨询感觉更个性化。当医生和患者可以清楚地看到对方并进行自然的眼神交流时,它可以建立信任并使互动感觉更人性化。
  • 创意产业: 对于动画师、艺术家和制作人等创意领域的人员来说,Beam 可以让远程团队合作感觉更轻松、更自然。无论是集思广益还是审查项目,它都感觉更像是在工作室里一起工作,而不是在进行视频通话。

Google Beam 的优缺点

以下是像Google Beam 这样的创新所带来的一些主要优势:

  • 无需头显:与许多沉浸式技术不同,Beam 的工作无需 AR 或 VR 头显。 这使得体验更加舒适,并避免了常见的晕动病或佩戴额外装备的不便。
  • 减少屏幕疲劳:3D 显示器提供更自然和舒适的观看体验,与长时间盯着平面屏幕相比,这有助于减轻眼睛疲劳。
  • 实时语言翻译: Beam 可以整合 AI 驱动的实时翻译,使讲不同语言的人们更容易在国际会议或学习环境中进行自然的交流。

Beam 是一个很有希望的进步,但与任何新技术一样,它也存在一些局限性。以下是一些需要考虑的事项:

  • 硬件要求: Beam 需要专门的高端设备,例如光场显示器和多个摄像头,这使得它价格昂贵,个人和小型组织难以使用。
  • 不可移植: Beam 的系统专为固定安装而设计,不便于移动,这限制了其在移动或变化环境中的灵活性和使用。

主要要点

Google Beam 是让虚拟交流更有人情味的迷人一步。虽然它仍处于早期阶段,但它有可能改变我们会面、联系和协作的方式。通过融合先进的人工智能、三维成像和空间音频,它可以创造出更加逼真和引人入胜的远程体验。

随着Google 不断改进 Beam 的硬件,使其更加小巧,并有可能将其带给普通用户,它为虚拟通信的未来带来了令人兴奋的可能性。随着全息会议和 3D 头像等新技术趋势的出现,Beam 正在为虚拟会议设立一个新的标准。

加入我们的社区,并查看我们的许可选项,立即开始使用计算机视觉。查看我们的GitHub代码仓库,以了解更多关于AI的信息。阅读我们的解决方案页面,以深入了解零售领域的AI农业领域的计算机视觉的各种用例。 

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始