ビデオ通話やバーチャル・ミーティングはリモートワークを可能にし、国やタイムゾーンを越えてチームがつながりを保つのに役立っている。ビデオ通話は私たちの生活の一部となり、コミュニケーションの方法を変えました。
しかし、ビデオ会議が広く利用されているにもかかわらず、その中核となる技術は長年ほとんど変わっていない。最近の進歩のおかげで、ビデオ会議プラットフォームは、より自然でリアルな感覚を目指し、変化し始めている。
興味深いことに、グーグルは年次開発者会議(Google I/O 2025)で、グーグルビームとして知られる新しいビデオ・コミュニケーション・ツールを発表した。ビームは 人工知能(AI)と3Dビデオ会議技術を使い、従来のフラットスクリーンを超えて、より没入感のある対面体験を実現する。
実際、Google Beamは、話している相手が目の前にいるかのように感じられるように設計されている。通常のビデオ通話とは異なり、アイコンタクトや視点に合わせて動く自然な動きなど、フラットスクリーンでは失われがちな人間の微妙な合図が蘇る。
この記事では、Google Beamとは何か、どのように開発されたのか、どのように機能するのか、そしてその応用について深く掘り下げていきます。さっそく始めましょう!
Google Beamを詳しく見る前に、その前身であるProject Starlineについて理解を深めよう。
2021年のGoogle I/Oで発表されたプロジェクト・スターラインは、遠隔コミュニケーションをよりリアルに、まるで同じ部屋にいるかのように感じられるようにすることを目的とした研究イニシアチブだった。これは、等身大の人物の3D画像をリアルタイムで作成することで機能する。この技術は注目を集めたが、複雑なセットアップと重いハードウェアを必要とした。
技術の進歩とともに、グーグルはソフトウェアを改良し、ハードウェアを合理化した。4年間の開発期間を経て、プロジェクト・スターラインは、よりコンパクトで使いやすいソリューション、グーグル・ビームへと進化した。
Google Beamは、AIを使用して、よりリアルな3Dのような相手の画像を作成することで、ビデオ通話を強化します。通常の2D映像を、角度を変えて調整するビューに変えることで、アイコンタクトを維持し、表情を見やすくする。また、リアルタイム翻訳、ヘッドトラッキング、空間オーディオなどの機能も搭載されている。
Google Beamは、拡張現実(AR)や仮想現実(VR)ヘッドセットのような余分なアクセサリーを使わずに動作するように開発された。その代わりに、独自の内蔵ディスプレイ、カメラシステム、3Dビジュアルを作成するハードウェアが搭載されている。これにより、ビデオ通話は一般的なビデオ会議よりも自然で快適、魅力的に感じられる。
さて、Google Beamがどのようにして誕生したかを説明したところで、その仕組みについて詳しく見ていこう。
すべては視覚情報を取り込むことから始まる。Beamは6台の高解像度カメラを使って、同時にさまざまな角度から写真を撮る。
これらのカメラは、顔の特徴、ボディランゲージ、小さな動きをリアルタイムで追跡するのに役立つ。AIはカメラの設定を最適化し、すべてのビデオフィードを完全に同期させることで重要な役割を果たす。これにより、システムは次の段階であるデータ処理に備える。
次に、AIを使用して6つの2Dカメラフィードを組み合わせ、視界内の人物のリアルタイム3Dモデルを生成する。単に2D画像を重ねるのではなく、奥行き、影、空間関係を再構築し、完全な3Dデジタルツインを作成する。
この3Dモデルを構築するために、ビームは深度推定やモーション・トラッキングといったAIやコンピューター・ビジョンの技術を利用している。これらの手法は、人物がカメラからどの程度離れているか、どのように動いているか、どのように体が置かれているかを判断するのに役立つ。このデータにより、システムは顔の特徴や体の部位を3D空間で正確にマッピングすることができる。
Beamの背後にあるAIモデルは、3D表現を毎秒60フレーム(FPS)で更新し、スムーズでリアルな会話を維持します。また、相手の動きを正確に反映するために、リアルタイムで調整を行います。
3Dモデルは、ライトフィールドディスプレイを使って受信機のビームシステムに表示される。両目に同じ画像を表示する従来のスクリーンとは異なり、ライトフィールドディスプレイは、それぞれの目にわずかに異なる画像を表示し、現実の生活で奥行きを知覚する方法をシミュレートします。これにより、よりリアルで立体的な視覚体験が実現する。
グーグルビームの最も印象的な特徴のひとつは、AIによるリアルタイムトラッキング機能だ。このシステムは正確なヘッドトラッキングとアイトラッキングを使い、細かな動きまで追従する。
例えば、BeamのAIエンジンは、ユーザーの頭の位置を継続的に追跡し、リアルタイムで画像に微妙な調整を加えることができる。これにより、画面上の人物が本当に向かい合わせに座っているかのような印象を与えることができる。あなたが頭を動かすと、それに応じて3D画像も移動し、まるで実際に対面して会話しているかのようです。
Beamはまた、画面上のどこに人が表示されるかに合わせた空間音響を使用することで、オーディオ体験を向上させる。誰かがディスプレイの左側にいれば、その声は左から聞こえてくるように聞こえる。相手が位置を移動すると、音声もそれに合わせて調整されます。これにより、会話はより自然に感じられ、脳は余計な努力をせずに誰が話しているのかを追うことができる。
これは、指向性オーディオ技術とリアルタイムのトラッキングを組み合わせることで機能する。Beamは空間オーディオを使用し、私たちが現実世界で自然に音を知覚する方法(音の方向と各耳への到達方法に基づく)をシミュレートする。このシステムはまた、視聴者の頭の動きを追跡し、それに応じて音声出力を調整する。
Google Beamはまだ初期段階だが、ビデオ会議分野で有望な可能性を示している。その主な用途をいくつか紹介しよう:
グーグルビームのようなイノベーションがもたらす主なメリットは以下の通り:
ビームは前途有望な一歩だが、他の新技術と同様、いくつかの制限がある。以下に考慮すべき点を挙げる:
グーグル・ビームは、バーチャル・コミュニケーションをより人間的なものにするための魅力的な一歩だ。まだ初期段階だが、私たちが出会い、つながり、コラボレーションする方法を変える可能性を秘めている。高度なAI、3D画像、空間オーディオを融合させることで、よりリアルで魅力的な遠隔体験を実現する。
グーグルがBeamのハードウェアを改良し続け、さらに小型化し、日常的なユーザーにも使えるようにすることで、バーチャル・コミュニケーションの未来にエキサイティングな可能性がもたらされる。ホログラフィック・ミーティングや3Dアバターといった新しい技術トレンドとともに、Beamはバーチャル・ミーティングの新しいスタンダードを築きつつある。
私たちのコミュニティに参加し、ライセンスオプションを見て、今すぐコンピュータビジョンを始めましょう。GitHubリポジトリをチェックして、AIについてもっと学びましょう。私たちのソリューションページを読んで、小売業におけるAIと 農業におけるコンピュータビジョンの様々な使用例についての洞察を得てください。