次世代3Dビデオ会議ツール「Google Beam」を探る

アビラミ・ヴィナ

4 min read

2025年6月19日

次世代の3Dビデオ会議ツール、Google Beamについてご紹介します。3D画像とAIを活用して、臨場感あふれるバーチャル会議を実現する方法をご紹介します。

ビデオ通話やバーチャル・ミーティングはリモートワークを可能にし、国やタイムゾーンを越えてチームがつながりを保つのに役立っている。ビデオ通話は私たちの生活の一部となり、コミュニケーションの方法を変えました。

しかし、ビデオ会議が広く利用されているにもかかわらず、その中核となる技術は長年ほとんど変わっていない。最近の進歩のおかげで、ビデオ会議プラットフォームは、より自然でリアルな感覚を目指し、変化し始めている。

興味深いことに、グーグルは年次開発者会議(Google I/O 2025)で、グーグルビームとして知られる新しいビデオ・コミュニケーション・ツールを発表した。ビームは 人工知能(AI)と3Dビデオ会議技術を使い、従来のフラットスクリーンを超えて、より没入感のある対面体験を実現する。

図1.Google Beamを紹介するグーグルCEOのスンダル・ピチャイ氏(出典)。

実際、Google Beamは、話している相手が目の前にいるかのように感じられるように設計されている。通常のビデオ通話とは異なり、アイコンタクトや視点に合わせて動く自然な動きなど、フラットスクリーンでは失われがちな人間の微妙な合図が蘇る。

この記事では、Google Beamとは何か、どのように開発されたのか、どのように機能するのか、そしてその応用について深く掘り下げていきます。さっそく始めましょう!

プロジェクト・スターラインからグーグルビームへ

Google Beamを詳しく見る前に、その前身であるProject Starlineについて理解を深めよう。

2021年のGoogle I/Oで発表されたプロジェクト・スターラインは、遠隔コミュニケーションをよりリアルに、まるで同じ部屋にいるかのように感じられるようにすることを目的とした研究イニシアチブだった。これは、等身大の人物の3D画像をリアルタイムで作成することで機能する。この技術は注目を集めたが、複雑なセットアップと重いハードウェアを必要とした。

図2.プロジェクト・スターラインの様子(出典)。

技術の進歩とともに、グーグルはソフトウェアを改良し、ハードウェアを合理化した。4年間の開発期間を経て、プロジェクト・スターラインは、よりコンパクトで使いやすいソリューション、グーグル・ビームへと進化した。

Google Beamは、AIを使用して、よりリアルな3Dのような相手の画像を作成することで、ビデオ通話を強化します。通常の2D映像を、角度を変えて調整するビューに変えることで、アイコンタクトを維持し、表情を見やすくする。また、リアルタイム翻訳、ヘッドトラッキング、空間オーディオなどの機能も搭載されている。

グーグルビームの概要

Google Beamは、拡張現実(AR)や仮想現実(VR)ヘッドセットのような余分なアクセサリーを使わずに動作するように開発された。その代わりに、独自の内蔵ディスプレイ、カメラシステム、3Dビジュアルを作成するハードウェアが搭載されている。これにより、ビデオ通話は一般的なビデオ会議よりも自然で快適、魅力的に感じられる。

図3.Google Beamの使用例(出典)。

Google Beamがリアルなバーチャル会議を実現する方法

さて、Google Beamがどのようにして誕生したかを説明したところで、その仕組みについて詳しく見ていこう。

没入型リモート・コラボレーションのための画像キャプチャ

すべては視覚情報を取り込むことから始まる。Beamは6台の高解像度カメラを使って、同時にさまざまな角度から写真を撮る。 

これらのカメラは、顔の特徴、ボディランゲージ、小さな動きをリアルタイムで追跡するのに役立つ。AIはカメラの設定を最適化し、すべてのビデオフィードを完全に同期させることで重要な役割を果たす。これにより、システムは次の段階であるデータ処理に備える。

2D画像から3Dビデオ会議

次に、AIを使用して6つの2Dカメラフィードを組み合わせ、視界内の人物のリアルタイム3Dモデルを生成する。単に2D画像を重ねるのではなく、奥行き、影、空間関係を再構築し、完全な3Dデジタルツインを作成する。

この3Dモデルを構築するために、ビームは深度推定やモーション・トラッキングといったAIやコンピューター・ビジョンの技術を利用している。これらの手法は、人物がカメラからどの程度離れているか、どのように動いているか、どのように体が置かれているかを判断するのに役立つ。このデータにより、システムは顔の特徴や体の部位を3D空間で正確にマッピングすることができる。

Beamの背後にあるAIモデルは、3D表現を毎秒60フレーム(FPS)で更新し、スムーズでリアルな会話を維持します。また、相手の動きを正確に反映するために、リアルタイムで調整を行います。

図4.Google Beamの6つのカメラは様々な角度から画像を撮影する(出典)。

グーグルビームのライトフィールドディスプレイシステム

3Dモデルは、ライトフィールドディスプレイを使って受信機のビームシステムに表示される。両目に同じ画像を表示する従来のスクリーンとは異なり、ライトフィールドディスプレイは、それぞれの目にわずかに異なる画像を表示し、現実の生活で奥行きを知覚する方法をシミュレートします。これにより、よりリアルで立体的な視覚体験が実現する。

図5.Google Beamを通じてバーチャル・ハイタッチを交わす(出典)。

ミリメートル単位のリアルタイム・ヘッドトラッキング

グーグルビームの最も印象的な特徴のひとつは、AIによるリアルタイムトラッキング機能だ。このシステムは正確なヘッドトラッキングとアイトラッキングを使い、細かな動きまで追従する。 

例えば、BeamのAIエンジンは、ユーザーの頭の位置を継続的に追跡し、リアルタイムで画像に微妙な調整を加えることができる。これにより、画面上の人物が本当に向かい合わせに座っているかのような印象を与えることができる。あなたが頭を動かすと、それに応じて3D画像も移動し、まるで実際に対面して会話しているかのようです。

AIによる仮想コミュニケーションのための音声処理

Beamはまた、画面上のどこに人が表示されるかに合わせた空間音響を使用することで、オーディオ体験を向上させる。誰かがディスプレイの左側にいれば、その声は左から聞こえてくるように聞こえる。相手が位置を移動すると、音声もそれに合わせて調整されます。これにより、会話はより自然に感じられ、脳は余計な努力をせずに誰が話しているのかを追うことができる。

これは、指向性オーディオ技術とリアルタイムのトラッキングを組み合わせることで機能する。Beamは空間オーディオを使用し、私たちが現実世界で自然に音を知覚する方法(音の方向と各耳への到達方法に基づく)をシミュレートする。このシステムはまた、視聴者の頭の動きを追跡し、それに応じて音声出力を調整する。 

グーグルビームの用途

Google Beamはまだ初期段階だが、ビデオ会議分野で有望な可能性を示している。その主な用途をいくつか紹介しよう:

  • 遠隔コラボレーション:Google Beamはミーティング、特にリーダー同士のディスカッションや重要な交渉の場を、よりパーソナルで効果的なものにします。ボディーランゲージやアイコンタクトのような微妙な要素を捉えることで、たとえ離れた場所にいても、人々がより存在感を感じることができる。
  • 教育: ビームは、バーチャルな学習をよりエキサイティングで身近なものにする可能性を秘めている。科学者が地球の裏側で学生に生講義をしているところを想像してみてください。
  • ヘルスケア:ビームは遠隔診療をより個人的なものにするかもしれない。医師と患者が互いの顔をはっきりと見ることができ、自然なアイコンタクトをとることができれば、信頼が生まれ、より人間的な交流が感じられるようになる。
  • クリエイティブ業界アニメーター、アーティスト、プロデューサーなど、クリエイティブな分野に携わる人々にとって、Beamはリモートでのチームワークをより簡単で自然なものにします。アイデアのブレーンストーミングでも、プロジェクトのレビューでも、ビデオ通話よりもスタジオで一緒に座っているような感覚になります。

グーグルビームの長所と短所

グーグルビームのようなイノベーションがもたらす主なメリットは以下の通り:

  • ヘッドセット不要: 多くの没入型テクノロジーとは異なり、BeamはARやVRヘッドセットを必要とせずに動作するこれにより、体験がより快適になり、乗り物酔いのような一般的な問題や、余分な道具を身につける不便さを避けることができる。
  • 画面の疲労を軽減:3Dディスプレイは、より自然で快適な視聴体験を提供し、平面の画面を長時間見続けるのに比べ、眼精疲労を軽減することができる。
  • リアルタイム言語翻訳:BeamはAIを活用したリアルタイム翻訳を組み込むことができ、異なる言語を話す人々が国際会議や学習環境で自然なコミュニケーションをとることを容易にする。

ビームは前途有望な一歩だが、他の新技術と同様、いくつかの制限がある。以下に考慮すべき点を挙げる:

  • ハードウェア要件: ビームは、ライトフィールド・ディスプレイや複数のカメラなど、特殊でハイエンドの機器を必要とするため、コストが高く、個人や小規模な組織では利用しにくい。
  • 持ち運びができない: ビーム社のシステムは固定設置用に設計されており、簡単に移動できるようにはなっていない。

要点

グーグル・ビームは、バーチャル・コミュニケーションをより人間的なものにするための魅力的な一歩だ。まだ初期段階だが、私たちが出会い、つながり、コラボレーションする方法を変える可能性を秘めている。高度なAI、3D画像、空間オーディオを融合させることで、よりリアルで魅力的な遠隔体験を実現する。

グーグルがBeamのハードウェアを改良し続け、さらに小型化し、日常的なユーザーにも使えるようにすることで、バーチャル・コミュニケーションの未来にエキサイティングな可能性がもたらされる。ホログラフィック・ミーティングや3Dアバターといった新しい技術トレンドとともに、Beamはバーチャル・ミーティングの新しいスタンダードを築きつつある。

私たちのコミュニティに参加し、ライセンスオプションを見て、今すぐコンピュータビジョンを始めましょう。GitHubリポジトリをチェックして、AIについてもっと学びましょう。私たちのソリューションページを読んで、小売業におけるAIと 農業におけるコンピュータビジョンの様々な使用例についての洞察を得てください。 

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう

無料で始める
クリップボードにコピーされたリンク