Google Beam：次世代3Dビデオ会議ツール

ビデオ通話やバーチャル会議は、リモートワークを可能にし、チームが国やタイムゾーンを越えて連携するのに役立っています。これらは私たちの生活に定着し、コミュニケーションの方法を変えました。

しかし、広く利用されているにもかかわらず、ビデオ会議の基盤となる技術は長年ほとんど変わっていません。最近の進歩のおかげで、ビデオ会議プラットフォームは、より自然で生き生きとした感覚を目指して変化し始めています。

興味深いことに、Googleは年次開発者会議（Google I/O 2025）で、Google Beamという新しいビデオコミュニケーションツールを発表しました。Beamは人工知能（AI）と3Dビデオ会議技術を使用して、従来のフラットスクリーンを超え、より没入感のある対面体験を実現します。

図1. GoogleのCEO、Sundar Pichai氏によるGoogle Beamの紹介（出典）。

‍

実際、Google Beamは、話している相手が目の前にいるように感じられるように設計されています。通常のビデオ通話とは異なり、目の接触や視点の変化に伴う自然な動きなど、微妙な人間の合図を取り戻します。これらの詳細は、平面スクリーンでは失われがちです。

この記事では、Google Beam とは何か、その開発経緯、仕組み、そして応用例について詳しく解説します。それでは始めましょう！

Project StarlineからGoogle Beamへ

Google Beamを詳しく見ていく前に、その前身であるProject Starlineについてより深く理解しましょう。

Google I/O 2021で発表されたProject Starlineは、まるで同じ部屋にいるかのように、リモートコミュニケーションをよりリアルに感じさせることを目的とした研究イニシアチブでした。これは、実物大の3D画像をリアルタイムで作成することで機能しました。この技術は多くの注目を集めましたが、複雑なセットアップと重いハードウェアが必要でした。

‍

長年にわたり、技術が進歩するにつれて、Googleはソフトウェアを改良し、ハードウェアを合理化しました。4年間の開発の後、Project Starlineは、よりコンパクトでユーザーフレンドリーなソリューションであるGoogle Beamへと進化しました。

Google Beamは、AIを使用して、あなたが話している人々のよりリアルな3Dのような画像を作成することにより、ビデオ通話を強化します。通常の2Dビデオをさまざまな角度で調整されるビューに変え、アイコンタクトを維持し、表情を見やすくするのに役立ちます。また、リアルタイム翻訳、ヘッドトラッキング、空間オーディオなどの機能も含まれています。

Google Beamの概要

Google Beamは、拡張現実（AR）や仮想現実（VR）ヘッドセットのような追加のアクセサリなしで動作するように開発されました。代わりに、独自の組み込みディスプレイ、カメラシステム、および3Dビジュアルを作成するためのハードウェアが付属しています。これにより、ビデオ通話は、通常のビデオ会議よりも自然で快適で魅力的なものになります。

‍

Google Beamはどのようにしてリアルなバーチャルミーティングを実現するのか

Google Beamがどのようにして誕生したかを説明したところで、その仕組みを詳しく見ていきましょう。

没入型リモートコラボレーションのための画像キャプチャ

すべては、視覚情報のキャプチャから始まります。 Beamは、6台の高解像度カメラを使用して、さまざまな角度から同時に写真を撮影します。

これらのカメラは、顔の特徴、ボディーランゲージ、および小さな動きをリアルタイムで追跡するのに役立ちます。AIは、カメラ設定を最適化し、すべてのビデオフィードを完全に同期させる上で重要な役割を果たします。これにより、システムは次の段階であるデータ処理の準備が整います。

2D画像を3Dビデオ会議に

次に、AIを使用して6つの2Dカメラフィードを結合し、表示されている人物のリアルタイム3Dモデルを生成します。単に2D画像を重ねるのではなく、奥行き、影、空間関係を再構築して、完全な3Dデジタルツインを作成します。

この3Dモデルを構築するために、BeamはAIと、深度推定やモーショントラッキングなどのコンピュータビジョン技術を使用しています。これらの方法は、人がカメラからどれだけ離れているか、どのように動くか、そして体の位置を特定するのに役立ちます。このデータを使用して、システムは顔の特徴と体の部位を3D空間で正確にマッピングできます。

BeamのAIモデルは、会話をスムーズでリアルなものにするために、3D表現を毎秒60フレーム（FPS）で更新します。また、人物の動きを正確に反映するために、リアルタイムで調整を行います。

図4. Google Beamの6つのカメラが異なる角度から画像をキャプチャします（出典）。

‍

Google Beamのライトフィールドディスプレイシステム

3Dモデルは、受信機のBeamシステムにライトフィールドディスプレイを使用して表示されます。両方の目に同じ画像を提示する従来の画面とは異なり、ライトフィールドディスプレイは各目にわずかに異なる画像を放射し、現実の世界で奥行きを知覚する方法をシミュレートします。これにより、よりリアルな3次元の視覚体験が生まれます。

‍

リアルタイムミリメートル精度ヘッドトラッキング

Google Beamの最も印象的な機能の1つは、リアルタイムAI追跡機能です。このシステムは、正確な頭部とアイトラッキングを使用して、最小の細部まで動きを追跡します。

例えば、BeamのAIエンジンは、ユーザーの頭の位置を継続的に追跡し、リアルタイムで画像に微妙な調整を加えることができます。これにより、画面上の人物が実際に目の前に座っているかのような印象を与えます。頭を動かすと、3D画像が実際に面と向かって会話しているときのように、それに応じて変化します。

AIで強化された仮想コミュニケーションのための音声処理

Beamはまた、空間オーディオを使用してオーディオ体験を向上させ、画面上の人物の位置に合わせて音を調整します。たとえば、誰かがディスプレイの左側にいる場合、その人の声は左側から聞こえるように聞こえます。位置が変わると、オーディオもそれに応じて調整されます。これにより、会話がより自然に感じられ、脳が余分な労力をかけずに誰が話しているかを把握できるようになります。

これは、指向性オーディオ技術とリアルタイムトラッキングを組み合わせることで実現します。Beamは、空間オーディオを使用して、現実世界での音の自然な認識方法（音が来る方向と各耳への届き方に基づく）をシミュレートします。また、システムは視聴者の頭の動きを追跡し、それに応じてオーディオ出力を調整するため、サウンドは画面上の人に「付着」したままになります。

Google Beamの応用

Google Beamは、まだ初期段階ですが、ビデオ会議の分野で有望な可能性を示しています。主なアプリケーションを以下に示します。

リモートコラボレーション: Google Beamは、会議、特にリーダーシップの議論や重要な交渉を、より個人的で効果的にすることができます。身振り手振りやアイコンタクトなどの微妙な要素を捉えることで、人々が遠く離れていても、より存在感を感じるのに役立ちます。
‍
教育: Beam は、バーチャル学習をよりエキサイティングでアクセスしやすいものにする可能性を秘めています。科学者が世界の反対側にいる学生にライブ講義を行い、まるで同じ部屋にいるかのように感じられる様子を想像してみてください。
‍
ヘルスケア: Beam は、遠隔診療をより個人的なものにする可能性があります。医師と患者が互いをはっきりと見ることができ、自然なアイコンタクトを取ることができる場合、信頼関係が構築され、やり取りがより人間らしく感じられます。
‍
クリエイティブ産業: アニメーター、アーティスト、プロデューサーなど、クリエイティブな分野の人々にとって、Beamはリモートでのチームワークをより簡単で自然に感じさせることができます。アイデアをブレインストーミングしたり、プロジェクトをレビューしたりする場合でも、ビデオ通話をしているというよりも、スタジオで一緒に座っているように感じられます。

Google Beamのメリットとデメリット

Google Beamのようなイノベーションがもたらす主な利点を以下に示します。

ヘッドセット不要: 多くの没入型テクノロジーとは異なり、BeamはARまたはVRヘッドセットを必要とせずに動作します。これにより、体験がより快適になり、乗り物酔いや追加の機器を装着する不便さなどの一般的な問題を回避できます。
‍
画面の疲労軽減：3Dディスプレイは、より自然で快適な視聴体験を提供し、長時間のフラットスクリーンでの凝視と比較して、目の疲れを軽減するのに役立ちます。
‍
リアルタイムの言語翻訳： Beamは、AIを活用したリアルタイム翻訳を組み込むことができ、さまざまな言語を話す人々が国際会議や学習環境で自然にコミュニケーションを取りやすくなります。

Beamは有望な前進ですが、他の新しいテクノロジーと同様に、いくつかの制限があります。考慮すべき点を以下に示します。

ハードウェア要件：Beamは、ライトフィールドディスプレイや複数のカメラなど、特殊なハイエンド機器を必要とするため、コストがかかり、個人や中小企業にとってはアクセスしにくいものとなっています。
‍
ポータブルではない: Beamのシステムは固定設置用に設計されており、簡単に移動できるように設計されていないため、モバイル環境や変化する環境での柔軟性と使用が制限されます。

主なポイント

Google Beamは、仮想コミュニケーションをより人間らしくするための魅力的な一歩です。まだ初期段階ですが、会議、つながり、コラボレーションの方法を変革する可能性を秘めています。高度なAI、3Dイメージング、および空間オーディオを組み合わせることで、よりリアルで魅力的なリモート体験を生み出します。

GoogleがBeamのハードウェアを改善し続け、さらに小型化し、おそらく日常のユーザーに提供することで、仮想コミュニケーションの未来にエキサイティングな可能性をもたらします。ホログラフィック会議や3Dアバターのような新しい技術トレンドとともに、Beamは仮想会議の新しい標準を確立しています。

コミュニティに参加し、ライセンスオプションをご覧になり、今日からコンピュータビジョンを始めましょう。GitHubリポジトリをチェックして、AIについてさらに学びましょう。ソリューションページでは、小売業におけるAIや農業におけるコンピュータビジョンのさまざまなユースケースについてご紹介しています。

次世代3Dビデオ会議ツール、Google Beamを探る

Project StarlineからGoogle Beamへ

Google Beamの概要