视频通话和虚拟会议使远程工作成为可能,帮助团队跨越国家和时区保持联系。它们已成为我们生活的一部分,并改变了我们的沟通方式。
然而,尽管视频会议被广泛使用,但其背后的核心技术多年来却基本未变。得益于最近的进步,视频会议平台开始转变,力求让人感觉更自然、更逼真。
有趣的是,在其年度开发者大会(Google I/O 2025)上,谷歌推出了新的视频通信工具--Google Beam。Beam使用 人工智能(AI)和3D视频会议技术,超越了传统的平面屏幕,创造了更加身临其境的亲身体验。
事实上,Google Beam 的设计让人感觉通话对象就在眼前。与普通视频通话不同的是,谷歌 Beam 可以还原人与人之间微妙的暗示,比如眼神交流和随着视角移动的自然动作,而这些细节在平面屏幕上往往会丢失。
在本文中,我们将深入探讨什么是 Google Beam、它是如何开发的、它是如何工作的以及它的应用。让我们开始吧!
在进一步了解 Google Beam 之前,我们先来了解一下它的前身 Project Starline。
在 2021 年谷歌 I/O 大会上推出的 "星线项目 "是一项研究计划,旨在让远程通信更加逼真,几乎就像在同一个房间里一样。它的工作原理是实时创建真人大小的3D 人像。尽管这项技术吸引了大量关注,但它需要复杂的设置和笨重的硬件。
多年来,随着技术的进步,谷歌对软件进行了改进,对硬件进行了精简。经过四年的发展,"星线项目 "已经演变成谷歌 Beam--一种更紧凑、更方便用户使用的解决方案。
Google Beam 利用人工智能为通话对象创建更逼真的 3D 图像,从而增强视频通话效果。它能将普通的 2D 视频转化为可根据不同角度进行调整的视图,有助于保持目光接触,使面部表情更容易看清。它还包括实时翻译、头部跟踪和空间音频等功能。
谷歌光束(Google Beam)的开发不需要额外的附件,如增强现实(AR)或虚拟现实(VR)头盔。相反,它配备了自己的内置显示屏、摄像系统和硬件,可以创建 3D 视觉效果。这使得视频通话感觉比一般的视频会议更自然、舒适和吸引人。
既然我们已经讨论了 Google Beam 是如何诞生的,那就让我们来仔细看看它是如何工作的。
一切从捕捉视觉信息开始。Beam 使用六个高分辨率摄像头同时从不同角度拍摄照片。
这些摄像头有助于实时跟踪面部特征、肢体语言和细微动作。人工智能在优化摄像头设置和保持所有视频信号完全同步方面发挥着关键作用。这为下一阶段的数据处理做好了准备。
接下来,人工智能将六个二维摄像头的画面结合起来,生成一个实时的三维模型。它不是简单地将二维图像分层,而是重建深度、阴影和空间关系,从而创建一个完整的三维数字双胞胎。
为了建立这个 3D 模型,Beam 使用了深度估计和运动跟踪等人工智能和计算机视觉技术。这些方法有助于确定人与摄像头的距离、移动方式和身体位置。有了这些数据,系统就能在三维空间中准确映射面部特征和身体部位。
Beam 背后的人工智能模型以每秒60帧(FPS)的速度更新 3D 呈现,以保持对话流畅逼真。它还会进行实时调整,以准确反映人物的动作。
三维模型通过光场显示器显示在接收器的光束系统上。与向双眼显示相同图像的传统屏幕不同,光场显示器向每只眼睛发射略微不同的图像,模拟我们在现实生活中感知深度的方式。这样就能创造出更加逼真的三维视觉体验。
Google Beam 最令人印象深刻的功能之一是其实时人工智能跟踪能力。该系统使用精确的头部和眼部追踪技术,能跟踪到最微小的动作细节。
例如,Beam 的人工智能引擎可以持续跟踪用户的头部位置,并实时对图像进行微妙的调整。这样,屏幕上的人就会给人一种真实坐在你对面的感觉。当你移动头部时,3D 图像也会随之移动,就像真实的面对面交谈一样。
Beam 还通过使用与屏幕上显示的人物位置相匹配的空间声音来改善音频体验。如果某人在显示屏的左侧,他的声音听起来就像是来自左侧。当他们变换位置时,音频也会随之调整。这让对话感觉更加自然,并帮助你的大脑在不费吹灰之力的情况下跟上说话的人。
它的工作原理是将定向音频技术与实时跟踪技术相结合。Beam 使用空间音频来模拟我们在现实世界中自然感知声音的方式(基于声音的来源方向以及声音到达每只耳朵的方式)。该系统还能跟踪观众的头部运动,并相应地调整音频输出,使声音始终 "贴 "在屏幕上的人身上。
尽管 Google Beam 仍处于早期阶段,但它在视频会议领域显示出了巨大的潜力。以下是它的一些主要应用:
以下是像 Google Beam 这样的创新所带来的一些主要优势:
光束技术是向前迈出的充满希望的一步,但与任何新技术一样,它也有一些局限性。以下是一些需要考虑的问题:
Google Beam 是让虚拟交流更有人情味的迷人一步。虽然它仍处于早期阶段,但它有可能改变我们会面、联系和协作的方式。通过融合先进的人工智能、三维成像和空间音频,它可以创造出更加逼真和引人入胜的远程体验。
随着谷歌不断改进 Beam 的硬件,使其更加小巧,并有可能将其带给普通用户,它为虚拟通信的未来带来了令人兴奋的可能性。随着全息会议和 3D 头像等新技术趋势的出现,Beam 正在为虚拟会议设立一个新的标准。
加入我们的社区,了解我们的许可选项,现在就开始学习计算机视觉。查看我们的GitHub 存储库,了解有关人工智能的更多信息。阅读我们的解决方案页面,深入了解人工智能在零售业和计算机视觉在农业中的各种应用案例。