Yolo 深圳
深セン
今すぐ参加

次世代3Dビデオ会議ツール「Google Beam」を探る

次世代の3Dビデオ会議ツール、Google Beamについてご紹介します。3D画像とAIを活用して、臨場感あふれるバーチャル会議を実現する方法をご紹介します。

ビデオ通話やバーチャル会議は、リモートワークを可能にし、チームが国やタイムゾーンを越えて連携するのに役立っています。これらは私たちの生活に定着し、コミュニケーションの方法を変えました。

しかし、広く利用されているにもかかわらず、ビデオ会議の基盤となる技術は長年ほとんど変わっていません。最近の進歩のおかげで、ビデオ会議プラットフォームは、より自然で生き生きとした感覚を目指して変化し始めています。

興味深いことに、Google 年次開発者会議Google I/O 2025)で、Google 知られる新しいビデオ・コミュニケーション・ツールを発表した。ビームは 人工知能(AI)と3Dビデオ会議技術を使い、従来のフラットスクリーンを超えて、より没入感のある対面体験を実現する。

図1.Google Beamを紹介するGoogleCEOのスンダル・ピチャイ氏(出典)。

実際、Google Beamは、話している相手が目の前にいるかのように感じられるように設計されている。通常のビデオ通話とは異なり、アイコンタクトや視点に合わせて動く自然な動きなど、フラットスクリーンでは失われがちな人間の微妙な合図が蘇る。

この記事では、Google Beamとは何か、どのように開発されたのか、どのように機能するのか、そしてその応用について深く掘り下げていきます。さっそく始めましょう!

プロジェクト・スターラインからGoogle

Google Beamを詳しく見る前に、その前身であるProject Starlineについて理解を深めよう。

2021年のGoogle I/Oで発表されたプロジェクト・スターラインは、遠隔コミュニケーションをよりリアルに、まるで同じ部屋にいるかのように感じられるようにすることを目的とした研究イニシアチブだった。これは、等身大の人物の3D画像をリアルタイムで作成することで機能する。この技術は注目を集めたが、複雑なセットアップと重いハードウェアを必要とした。

図2。Project Starlineの概観(出典)。

技術の進歩とともに、Google ソフトウェアを改良し、ハードウェアを合理化した。4年間の開発期間を経て、プロジェクト・スターラインは、よりコンパクトで使いやすいソリューション、Google 進化した。

Google Beamは、AIを使用して、よりリアルな3Dのような相手の画像を作成することで、ビデオ通話を強化します。通常の2D映像を、角度を変えて調整するビューに変えることで、アイコンタクトを維持し、顔の表情を見やすくします。また、リアルタイム翻訳、ヘッドトラッキング、空間オーディオなどの機能も搭載されている。

Google 概要

Google Beamは、拡張現実(AR)や仮想現実(VR)ヘッドセットのような余分なアクセサリーを使わずに動作するように開発された。その代わりに、独自の内蔵ディスプレイ、カメラシステム、3Dビジュアルを作成するハードウェアが搭載されている。これにより、ビデオ通話は一般的なビデオ会議よりも自然で快適、魅力的に感じられる。

図3.Google Beamの使用例(出典)。

Google Beamがリアルなバーチャル会議を実現する方法

さて、Google Beamがどのようにして誕生したかを説明したところで、その仕組みについて詳しく見ていこう。

没入型リモートコラボレーションのための画像キャプチャ

すべては、視覚情報のキャプチャから始まります。 Beamは、6台の高解像度カメラを使用して、さまざまな角度から同時に写真を撮影します。 

これらのカメラは、顔の特徴、ボディランゲージ、小さな動きをリアルタイムでtrack のに役立つ。AIはカメラの設定を最適化し、すべてのビデオフィードを完全に同期させることで重要な役割を果たす。これにより、システムは次の段階であるデータ処理に備える。

2D画像を3Dビデオ会議に

次に、AIを使用して6つの2Dカメラフィードを結合し、表示されている人物のリアルタイム3Dモデルを生成します。単に2D画像を重ねるのではなく、奥行き、影、空間関係を再構築して、完全な3Dデジタルツインを作成します。

この3Dモデルを構築するために、BeamはAIと、深度推定やモーショントラッキングなどのコンピュータビジョン技術を使用しています。これらの方法は、人がカメラからどれだけ離れているか、どのように動くか、そして体の位置を特定するのに役立ちます。このデータを使用して、システムは顔の特徴と体の部位を3D空間で正確にマッピングできます。

BeamのAIモデルは、会話をスムーズでリアルなものにするために、3D表現を毎秒60フレーム(FPS)で更新します。また、人物の動きを正確に反映するために、リアルタイムで調整を行います。

図4.Google Beamの6つのカメラは様々な角度から画像を撮影する(出典)。

Google ライトフィールドディスプレイシステム

3Dモデルは、受信機のBeamシステムにライトフィールドディスプレイを使用して表示されます。両方の目に同じ画像を提示する従来の画面とは異なり、ライトフィールドディスプレイは各目にわずかに異なる画像を放射し、現実の世界で奥行きを知覚する方法をシミュレートします。これにより、よりリアルな3次元の視覚体験が生まれます。

図5.Google Beamを通じてバーチャル・ハイタッチを交わす(出典)。

リアルタイムミリメートル精度ヘッドトラッキング

Google 最も印象的な特徴のひとつは、AIによるリアルタイムトラッキング機能だ。このシステムは正確なヘッドトラッキングとアイトラッキングを使い、細かな動きまで追従する。 

例えば、BeamのAIエンジンは、ユーザーの頭の位置を継続的にtrack し、リアルタイムで画像に微妙な調整を加えることができる。これにより、画面上の人物が本当に向かい合わせに座っているかのような印象を与えることができる。あなたが頭を動かすと、それに応じて3D画像も移動し、まるで実際に対面して会話しているかのようです。

AIで強化された仮想コミュニケーションのための音声処理

Beamはまた、空間オーディオを使用してオーディオ体験を向上させ、画面上の人物の位置に合わせて音を調整します。たとえば、誰かがディスプレイの左側にいる場合、その人の声は左側から聞こえるように聞こえます。位置が変わると、オーディオもそれに応じて調整されます。これにより、会話がより自然に感じられ、脳が余分な労力をかけずに誰が話しているかを把握できるようになります。

これは、指向性オーディオ技術とリアルタイムトラッキングを組み合わせることで実現します。Beamは、空間オーディオを使用して、現実世界での音の自然な認識方法(音が来る方向と各耳への届き方に基づく)をシミュレートします。また、システムは視聴者の頭の動きを追跡し、それに応じてオーディオ出力を調整するため、サウンドは画面上の人に「付着」したままになります。 

Google 用途

Google Beamはまだ初期段階だが、ビデオ会議分野で有望な可能性を示している。その主な用途をいくつか紹介しよう:

  • 遠隔コラボレーション: Google Beamはミーティング、特にリーダー同士のディスカッションや重要な交渉の場を、よりパーソナルで効果的なものにします。ボディーランゲージやアイコンタクトのような微妙な要素を捉えることで、たとえ離れた場所にいても、人々がより存在感を感じられるようになる。
  • 教育: Beam は、バーチャル学習をよりエキサイティングでアクセスしやすいものにする可能性を秘めています。科学者が世界の反対側にいる学生にライブ講義を行い、まるで同じ部屋にいるかのように感じられる様子を想像してみてください。
  • ヘルスケア: Beam は、遠隔診療をより個人的なものにする可能性があります。医師と患者が互いをはっきりと見ることができ、自然なアイコンタクトを取ることができる場合、信頼関係が構築され、やり取りがより人間らしく感じられます。
  • クリエイティブ産業: アニメーター、アーティスト、プロデューサーなど、クリエイティブな分野の人々にとって、Beamはリモートでのチームワークをより簡単で自然に感じさせることができます。アイデアをブレインストーミングしたり、プロジェクトをレビューしたりする場合でも、ビデオ通話をしているというよりも、スタジオで一緒に座っているように感じられます。

Google 長所と短所

Google ようなイノベーションがもたらす主なメリットは以下の通り:

  • ヘッドセット不要: 多くの没入型テクノロジーとは異なり、BeamはARまたはVRヘッドセットを必要とせずに動作します。これにより、体験がより快適になり、乗り物酔いや追加の機器を装着する不便さなどの一般的な問題を回避できます。
  • 画面の疲労軽減:3Dディスプレイは、より自然で快適な視聴体験を提供し、長時間のフラットスクリーンでの凝視と比較して、目の疲れを軽減するのに役立ちます。
  • リアルタイムの言語翻訳: Beamは、AIを活用したリアルタイム翻訳を組み込むことができ、さまざまな言語を話す人々が国際会議や学習環境で自然にコミュニケーションを取りやすくなります。

Beamは有望な前進ですが、他の新しいテクノロジーと同様に、いくつかの制限があります。考慮すべき点を以下に示します。

  • ハードウェア要件:Beamは、ライトフィールドディスプレイや複数のカメラなど、特殊なハイエンド機器を必要とするため、コストがかかり、個人や中小企業にとってはアクセスしにくいものとなっています。
  • ポータブルではない: Beamのシステムは固定設置用に設計されており、簡単に移動できるように設計されていないため、モバイル環境や変化する環境での柔軟性と使用が制限されます。

主なポイント

Google 、バーチャル・コミュニケーションをより人間的なものにするための魅力的な一歩だ。まだ初期段階だが、私たちが出会い、つながり、コラボレーションする方法を変える可能性を秘めている。高度なAI、3D画像、空間オーディオを融合させることで、よりリアルで魅力的な遠隔体験を実現する。

Google Beamのハードウェアを改良し続け、さらに小型化し、日常的なユーザーにも使えるようにすることで、バーチャル・コミュニケーションの未来にエキサイティングな可能性がもたらされる。ホログラフィック・ミーティングや3Dアバターといった新しい技術トレンドとともに、Beamはバーチャル・ミーティングの新しいスタンダードを築きつつある。

コミュニティに参加し、ライセンスオプションをご覧になり、今日からコンピュータビジョンを始めましょう。GitHubリポジトリをチェックして、AIについてさらに学びましょう。ソリューションページでは、小売業におけるAI農業におけるコンピュータビジョンのさまざまなユースケースについてご紹介しています。 

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる