探索 Google Beam:新一代 3D 视频会议工具

阿比拉米-维纳

4 分钟阅读

2025 年 6 月 19 日

了解新一代 3D 视频会议工具 Google Beam。了解它如何利用 3D 成像和人工智能实现栩栩如生、身临其境的虚拟会议。

视频通话和虚拟会议使远程工作成为可能,帮助团队跨越国家和时区保持联系。它们已成为我们生活的一部分,并改变了我们的沟通方式。

然而,尽管视频会议被广泛使用,但其背后的核心技术多年来却基本未变。得益于最近的进步,视频会议平台开始转变,力求让人感觉更自然、更逼真。

有趣的是,在其年度开发者大会(Google I/O 2025)上,谷歌推出了新的视频通信工具--Google Beam。Beam使用 人工智能(AI)和3D视频会议技术,超越了传统的平面屏幕,创造了更加身临其境的亲身体验。

图 1.谷歌首席执行官桑达尔-皮查伊介绍 Google Beam(资料来源)。

事实上,Google Beam 的设计让人感觉通话对象就在眼前。与普通视频通话不同的是,谷歌 Beam 可以还原人与人之间微妙的暗示,比如眼神交流和随着视角移动的自然动作,而这些细节在平面屏幕上往往会丢失。

在本文中,我们将深入探讨什么是 Google Beam、它是如何开发的、它是如何工作的以及它的应用。让我们开始吧!

从 Project Starline 到 Google Beam

在进一步了解 Google Beam 之前,我们先来了解一下它的前身 Project Starline。

在 2021 年谷歌 I/O 大会上推出的 "星线项目 "是一项研究计划,旨在让远程通信更加逼真,几乎就像在同一个房间里一样。它的工作原理是实时创建真人大小的3D 人像。尽管这项技术吸引了大量关注,但它需要复杂的设置和笨重的硬件。

图 2.星线项目概览(资料来源)。

多年来,随着技术的进步,谷歌对软件进行了改进,对硬件进行了精简。经过四年的发展,"星线项目 "已经演变成谷歌 Beam--一种更紧凑、更方便用户使用的解决方案。

Google Beam 利用人工智能为通话对象创建更逼真的 3D 图像,从而增强视频通话效果。它能将普通的 2D 视频转化为可根据不同角度进行调整的视图,有助于保持目光接触,使面部表情更容易看清。它还包括实时翻译、头部跟踪和空间音频等功能。

谷歌光束概述

谷歌光束(Google Beam)的开发不需要额外的附件,如增强现实(AR)或虚拟现实(VR)头盔。相反,它配备了自己的内置显示屏、摄像系统和硬件,可以创建 3D 视觉效果。这使得视频通话感觉比一般的视频会议更自然、舒适和吸引人。

图 3.使用 Google Beam 的示例(资料来源)。

Google Beam 如何创建逼真的虚拟会议

既然我们已经讨论了 Google Beam 是如何诞生的,那就让我们来仔细看看它是如何工作的。

图像捕捉,实现身临其境的远程协作

一切从捕捉视觉信息开始。Beam 使用六个高分辨率摄像头同时从不同角度拍摄照片。 

这些摄像头有助于实时跟踪面部特征、肢体语言和细微动作。人工智能在优化摄像头设置和保持所有视频信号完全同步方面发挥着关键作用。这为下一阶段的数据处理做好了准备。

二维图像转三维视频会议

接下来,人工智能将六个二维摄像头的画面结合起来,生成一个实时的三维模型。它不是简单地将二维图像分层,而是重建深度、阴影和空间关系,从而创建一个完整的三维数字双胞胎。

为了建立这个 3D 模型,Beam 使用了深度估计和运动跟踪等人工智能和计算机视觉技术。这些方法有助于确定人与摄像头的距离、移动方式和身体位置。有了这些数据,系统就能在三维空间中准确映射面部特征和身体部位。

Beam 背后的人工智能模型以每秒60帧(FPS)的速度更新 3D 呈现,以保持对话流畅逼真。它还会进行实时调整,以准确反映人物的动作。

图 4.Google Beam 的六个摄像头从不同角度捕捉图像(资料来源)。

谷歌光束的光场显示系统

三维模型通过光场显示器显示在接收器的光束系统上。与向双眼显示相同图像的传统屏幕不同,光场显示器向每只眼睛发射略微不同的图像,模拟我们在现实生活中感知深度的方式。这样就能创造出更加逼真的三维视觉体验。

图 5.通过 Google Beam 交换虚拟击掌(资料来源)。

实时毫米级精确头部跟踪

Google Beam 最令人印象深刻的功能之一是其实时人工智能跟踪能力。该系统使用精确的头部和眼部追踪技术,能跟踪到最微小的动作细节。 

例如,Beam 的人工智能引擎可以持续跟踪用户的头部位置,并实时对图像进行微妙的调整。这样,屏幕上的人就会给人一种真实坐在你对面的感觉。当你移动头部时,3D 图像也会随之移动,就像真实的面对面交谈一样。

用于人工智能增强型虚拟通信的音频处理技术

Beam 还通过使用与屏幕上显示的人物位置相匹配的空间声音来改善音频体验。如果某人在显示屏的左侧,他的声音听起来就像是来自左侧。当他们变换位置时,音频也会随之调整。这让对话感觉更加自然,并帮助你的大脑在不费吹灰之力的情况下跟上说话的人。

它的工作原理是将定向音频技术与实时跟踪技术相结合。Beam 使用空间音频来模拟我们在现实世界中自然感知声音的方式(基于声音的来源方向以及声音到达每只耳朵的方式)。该系统还能跟踪观众的头部运动,并相应地调整音频输出,使声音始终 "贴 "在屏幕上的人身上。 

谷歌光束的应用

尽管 Google Beam 仍处于早期阶段,但它在视频会议领域显示出了巨大的潜力。以下是它的一些主要应用:

  • 远程协作:Google Beam 可以让会议(尤其是领导层讨论或高风险谈判)变得更加个性化和有效。通过捕捉肢体语言和眼神交流等微妙的因素,它能帮助人们即使相隔遥远,也能感受到更多的存在感。
  • 教育: Beam 有可能让虚拟学习变得更令人兴奋、更容易获得。想象一下,科学家给远在地球另一端的学生做现场演讲,感觉就像他们在同一个房间里一样。
  • 医疗保健:光束可让远程会诊更有人情味。当医生和病人能清楚地看到对方并进行自然的眼神交流时,就能建立信任,使互动更有人情味。
  • 创意行业:对于动画师、艺术家和制片人等创意领域的人员来说,Beam 可以让远程团队工作变得更轻松、更自然。无论是集思广益还是审查项目,感觉更像是坐在工作室里,而不是通过视频通话。

Google Beam 的优缺点

以下是像 Google Beam 这样的创新所带来的一些主要优势:

  • 无需头戴设备 与许多沉浸式技术不同,Beam 不需要AR 或 VR 头显即可工作这使体验更加舒适,避免了晕动病等常见问题或佩戴额外装备带来的不便。
  • 减少屏幕疲劳:与长时间盯着平面屏幕相比,3D 显示屏提供了更自然、更舒适的观看体验,有助于减轻眼睛疲劳。
  • 实时语言翻译:Beam 可以集成人工智能驱动的实时翻译功能,让讲不同语言的人更容易在国际会议或学习环境中自然交流。

光束技术是向前迈出的充满希望的一步,但与任何新技术一样,它也有一些局限性。以下是一些需要考虑的问题:

  • 硬件要求: 光束需要专门的高端设备,如光场显示器和多台摄像机,因此价格昂贵,个人和小型组织较难使用。
  • 不可移动: Beam 的系统是为固定安装而设计的,不能轻易移动,这就限制了它在移动或不断变化的环境中使用的灵活性。

主要收获

Google Beam 是让虚拟交流更有人情味的迷人一步。虽然它仍处于早期阶段,但它有可能改变我们会面、联系和协作的方式。通过融合先进的人工智能、三维成像和空间音频,它可以创造出更加逼真和引人入胜的远程体验。

随着谷歌不断改进 Beam 的硬件,使其更加小巧,并有可能将其带给普通用户,它为虚拟通信的未来带来了令人兴奋的可能性。随着全息会议和 3D 头像等新技术趋势的出现,Beam 正在为虚拟会议设立一个新的标准。

加入我们的社区,了解我们的许可选项,现在就开始学习计算机视觉。查看我们的GitHub 存储库,了解有关人工智能的更多信息。阅读我们的解决方案页面,深入了解人工智能在零售业计算机视觉在农业中的各种应用案例。 

让我们共同打造人工智能的未来

开始您的未来机器学习之旅

免费开始
链接复制到剪贴板