Google Beam: 3D-видеоконференция нового поколения

Видеозвонки и виртуальные встречи сделали возможной удаленную работу, помогая командам оставаться на связи в разных странах и часовых поясах. Они стали привычной частью нашей жизни и изменили способ общения.

Однако, несмотря на широкое распространение, технология, лежащая в основе видеоконференций, остается неизменной на протяжении многих лет. Благодаря последним достижениям платформы для видеоконференций начинают меняться, стремясь к более естественным и реалистичным ощущениям.

Интересно, что на своей ежегодной конференции для разработчиков (Google I/O 2025) компания Google представила новое средство видеосвязи, известное как Google Beam. Beam использует искусственный интеллект (ИИ) и технологию 3D-видеоконференций, чтобы выйти за рамки традиционных плоских экранов и создать более захватывающее ощущение личного общения.

Рис. 1. Генеральный директор Google Сундар Пичаи представляет Google Beam(источник).

‍

Фактически, Google Beam создан для того, чтобы создать ощущение, что собеседник находится прямо перед вами. В отличие от обычных видеозвонков, он возвращает тонкие человеческие сигналы, такие как зрительный контакт и естественные движения, которые меняются в зависимости от перспективы, - детали, которые часто теряются на плоских экранах.

В этой статье мы подробно расскажем о том, что такое Google Beam, как он был разработан, как работает и где применяется. Давайте начнем!

Переход от проекта Starline к Google Beam

Прежде чем мы рассмотрим Google Beam поближе, давайте лучше разберемся в его предшественнике, проекте Starline.

Представленный на Google I/O 2021, Project Starline был исследовательской инициативой, направленной на то, чтобы сделать удаленное общение более реалистичным, почти как если бы вы находились в одной комнате. Она работала за счет создания 3D-изображений людей в натуральную величину в режиме реального времени. Несмотря на то что технология привлекла большое внимание, она требовала сложных настроек и тяжелого оборудования.

Рис. 2. Вид на проект Starline(источник).

‍

С годами, по мере развития технологий, Google усовершенствовала программное обеспечение и оптимизировала аппаратную часть. После четырех лет разработки проект Starline превратился в Google Beam - более компактное и удобное решение.

Google Beam использует искусственный интеллект для улучшения качества видеозвонков, создавая более реалистичные 3D-изображения собеседников. Он превращает обычное 2D-видео в изображение, которое меняется под разными углами, помогая поддерживать зрительный контакт и облегчая восприятие мимики. Кроме того, в нем есть такие функции, как перевод в реальном времени, отслеживание положения головы и пространственное аудио.

Обзор Google Beam

Google Beam был разработан для работы без дополнительных аксессуаров, таких как гарнитуры дополненной реальности (AR) или виртуальной реальности (VR). Вместо этого он оснащен собственным встроенным дисплеем, системой камер и оборудованием для создания 3D-изображений. Благодаря этому видеозвонки выглядят более естественно, комфортно и увлекательно, чем обычные видеовстречи.

Рис. 3. Пример использования Google Beam(источник).

‍

Как Google Beam создает реалистичные виртуальные встречи

Теперь, когда мы обсудили, как появился Google Beam, давайте подробнее рассмотрим, как он работает.

Захват изображений для иммерсивного удаленного сотрудничества

Все начинается с захвата визуальной информации. Beam использует шесть камер высокого разрешения для одновременной съемки с разных углов.

Эти камеры помогают отслеживать черты лица, язык тела и мелкие движения в режиме реального времени. ИИ играет ключевую роль, оптимизируя настройки камер и поддерживая идеальную синхронизацию всех видеоканалов. Это подготавливает систему к следующему этапу - обработке данных.

Передача 2D-изображений в 3D-видеоконференции

Затем искусственный интеллект объединяет шесть 2D-камер для создания 3D-модели человека в реальном времени. Вместо того чтобы просто накладывать 2D-изображения, он восстанавливает глубину, тени и пространственные отношения, чтобы создать полноценного 3D-близнеца.

Для создания этой 3D-модели Beam использует методы искусственного интеллекта и компьютерного зрения, такие как оценка глубины и отслеживание движения. Эти методы помогают определить, как далеко человек находится от камеры, как он двигается и как расположено его тело. Благодаря этим данным система может точно отобразить черты лица и части тела в 3D-пространстве.

ИИ-модель, лежащая в основе Beam, обновляет 3D-представление с частотой 60 кадров в секунду (FPS), чтобы сохранить плавность и реалистичность разговора. Она также вносит коррективы в реальном времени, чтобы точно отразить движения человека.

Рис. 4. Шесть камер Google Beam снимают изображения под разными углами(Источник).

‍

Системы отображения светового поля Google Beam

3D-модель отображается на системе Beam приемника с помощью дисплея со световым полем. В отличие от обычных экранов, на которые выводится одно и то же изображение для обоих глаз, дисплей со световым полем передает каждому глазу немного разные изображения, имитируя то, как мы воспринимаем глубину в реальной жизни. Это создает более реалистичное, трехмерное визуальное восприятие.

Рис. 5. Обмен виртуальными приветствиями через Google Beam(источник).

‍

Отслеживание головы в реальном времени с точностью до миллиметра

Одна из самых впечатляющих особенностей Google Beam - возможность отслеживания движений в режиме реального времени с помощью искусственного интеллекта. Система использует точный трекинг головы и глаз, чтобы отслеживать движения вплоть до мельчайших деталей.

Например, система искусственного интеллекта Beam может постоянно отслеживать положение головы пользователя и вносить тонкие коррективы в изображение в режиме реального времени. Это создает впечатление, что человек на экране действительно сидит напротив вас. Когда вы двигаете головой, 3D-изображение смещается соответствующим образом, как при реальном разговоре лицом к лицу.

Обработка звука для виртуального общения с поддержкой ИИ

Beam также улучшает качество звука, используя пространственное звучание, соответствующее положению человека на экране. Если человек находится в левой части экрана, его голос будет звучать слева. При изменении положения человека звук подстраивается под него. Это делает разговор более естественным и помогает вашему мозгу следить за тем, кто говорит, без лишних усилий.

Это работает благодаря сочетанию технологий направленного звука и отслеживания в реальном времени. Beam использует пространственное аудио для имитации того, как мы естественным образом воспринимаем звук в реальном мире (в зависимости от того, откуда он исходит и как достигает каждого уха). Система также отслеживает движения головы зрителя и соответствующим образом настраивает аудиовыход, чтобы звук оставался "привязанным" к человеку на экране.

Области применения Google Beam

Google Beam, хотя и находится на ранних стадиях своего развития, демонстрирует многообещающий потенциал в области видеоконференций. Вот некоторые из его ключевых приложений:

Удаленное сотрудничество: Google Beam позволяет сделать совещания, особенно обсуждения на уровне руководства или переговоры с высокими ставками, более личными и эффективными. Улавливая такие тонкие факторы, как язык тела и зрительный контакт, он помогает людям чувствовать себя более присутствующими, даже если они находятся далеко друг от друга.
‍
Образование: Beam способен сделать виртуальное обучение более увлекательным и доступным. Представьте, что ученый читает лекцию студентам, находящимся на другом конце света, и у них возникает ощущение, что они находятся в одной комнате.
‍
Здравоохранение: Луч может придать удаленным консультациям более личный характер. Когда врачи и пациенты могут четко видеть друг друга и устанавливать естественный зрительный контакт, это укрепляет доверие и делает взаимодействие более человечным.
‍
Творческие индустрии: Для людей творческих профессий, таких как аниматоры, художники и продюсеры, Beam может сделать удаленную командную работу более простой и естественной. Будь то мозговой штурм идей или анализ проекта, это больше похоже на совместную работу в студии, чем на видеозвонок.

Плюсы и минусы Google Beam

Вот некоторые из ключевых преимуществ, которые дает такая инновация, как Google Beam:

Гарнитуры не нужны: В отличие от многих иммерсивных технологий, Beam работает без использования AR- или VR-гарнитур. Это делает опыт более комфортным и позволяет избежать таких распространенных проблем, как укачивание или неудобство, связанное с ношением дополнительного оборудования.
‍
Снижение утомляемости от экрана: 3D-дисплей обеспечивает более естественный и комфортный просмотр, что помогает снизить напряжение глаз по сравнению с длительным просмотром плоских экранов.
‍
Языковой перевод в реальном времени: В Beam может быть встроен перевод в реальном времени с помощью искусственного интеллекта, что облегчает естественное общение людей, говорящих на разных языках, на международных встречах или в учебных заведениях.

Beam - многообещающий шаг вперед, но, как и любая новая технология, он имеет ряд ограничений. Вот некоторые из них, которые следует учитывать:

Требования к аппаратному обеспечению: Луч требует специализированного оборудования высокого класса, такого как дисплеи со световым полем и несколько камер, что делает его дорогим и менее доступным для частных лиц и небольших организаций.
‍
Не переносится: Система Beam предназначена для стационарной установки и не рассчитана на легкое перемещение, что ограничивает ее гибкость и использование в мобильных или меняющихся условиях.

Основные выводы

Google Beam - это потрясающий шаг к тому, чтобы виртуальное общение стало более человечным. Несмотря на то, что эта технология находится на ранней стадии развития, она способна изменить наши представления о том, как мы встречаемся, общаемся и сотрудничаем. Благодаря сочетанию передового искусственного интеллекта, 3D-изображения и пространственного аудио он создает более реалистичный и увлекательный опыт удаленного общения.

По мере того как Google продолжает совершенствовать аппаратную часть Beam, делать его еще меньше и, возможно, предлагать его обычным пользователям, он открывает захватывающие возможности для будущего виртуального общения. Наряду с новыми технологическими тенденциями, такими как голографические встречи и 3D-аватары, Beam устанавливает новые стандарты для виртуальных встреч.

Присоединяйтесь к нашему сообществу и ознакомьтесь с нашими вариантами лицензирования, чтобы начать работать с компьютерным зрением уже сегодня. Ознакомьтесь с нашим репозиторием GitHub, чтобы узнать больше об искусственном интеллекте. Прочитайте страницы наших решений, чтобы получить представление о различных вариантах использования ИИ в розничной торговле и компьютерного зрения в сельском хозяйстве.

Изучение Google Beam: 3D-видеоконференции нового поколения

Переход от проекта Starline к Google Beam

Обзор Google Beam

Как Google Beam создает реалистичные виртуальные встречи

Захват изображений для иммерсивного удаленного сотрудничества

Передача 2D-изображений в 3D-видеоконференции

Системы отображения светового поля Google Beam

Отслеживание головы в реальном времени с точностью до миллиметра

Обработка звука для виртуального общения с поддержкой ИИ

Области применения Google Beam

Плюсы и минусы Google Beam

Основные выводы

Подробнее в этой категории

FastVLM: Apple представила новую быструю языковую модель зрения

Автоматизация производства с помощью искусственного интеллекта

Промышленный интернет вещей (IIoT) объясняется

Давайте вместе построим будущее
искусственного интеллекта!

Изучение Google Beam: 3D-видеоконференции нового поколения

Переход от проекта Starline к Google Beam

Обзор Google Beam

Как Google Beam создает реалистичные виртуальные встречи

Захват изображений для иммерсивного удаленного сотрудничества

Передача 2D-изображений в 3D-видеоконференции

Системы отображения светового поля Google Beam

Отслеживание головы в реальном времени с точностью до миллиметра

Обработка звука для виртуального общения с поддержкой ИИ

Области применения Google Beam

Плюсы и минусы Google Beam

Основные выводы

Подробнее в этой категории

FastVLM: Apple представила новую быструю языковую модель зрения

Автоматизация производства с помощью искусственного интеллекта

Промышленный интернет вещей (IIoT) объясняется

Давайте вместе построим будущее искусственного интеллекта!

Давайте вместе построим будущее
искусственного интеллекта!