Google Beam : un nouvel outil de vidéoconférence en 3D

Du projet Starline à Google Beam

Aperçu de Google Beam

Comment Google Beam crée des réunions virtuelles réalistes

Capture d'images pour une collaboration immersive à distance

De l'image 2D à la vidéoconférence 3D

Systèmes d'affichage du champ lumineux de Google Beam

Suivi de la tête en temps réel avec une précision de l'ordre du millimètre

Traitement audio pour une communication virtuelle améliorée par l'IA

Applications de Google Beam

Avantages et inconvénients de Google Beam

Principaux enseignements

Les appels vidéo et les réunions virtuelles ont rendu possible le travail à distance, en aidant les équipes à rester en contact par-delà les pays et les fuseaux horaires. Ils font désormais partie intégrante de notre vie et ont changé notre façon de communiquer.

Cependant, malgré leur utilisation répandue, la technologie de base de la vidéoconférence est restée pratiquement inchangée pendant des années. Grâce à des avancées récentes, les plateformes de vidéoconférence commencent à évoluer pour devenir plus naturelles et plus réalistes.

Lors de sa conférence annuelle des développeurs (Google I/O 2025), Google a présenté son nouvel outil de communication vidéo, appelé Google Beam. Beam utilise l' intelligence artificielle (IA) et la technologie de vidéoconférence en 3D pour aller au-delà des écrans plats traditionnels et créer une expérience plus immersive, en personne.

Fig 1. Sundar Pichai, PDG de Google, présentant Google Beam(Source).

‍

En fait, Google Beam est conçu pour donner l'impression que la personne à qui vous parlez se trouve juste en face de vous. Contrairement aux appels vidéo classiques, il restitue des indices humains subtils, tels que le contact visuel et les mouvements naturels qui se modifient en fonction de la perspective, des détails qui sont souvent perdus sur les écrans plats.

Dans cet article, nous allons nous pencher sur ce qu'est Google Beam, comment il a été développé, comment il fonctionne et quelles sont ses applications. C'est parti !

Du projet Starline à Google Beam

Avant d'examiner de plus près Google Beam, il convient de mieux comprendre son prédécesseur, le projet Starline.

Présenté lors de la conférence Google I/O 2021, le projet Starline était une initiative de recherche visant à rendre les communications à distance plus réalistes, comme si vous étiez dans la même pièce. Pour ce faire, il créait des images 3D de personnes en temps réel. Bien que la technologie ait attiré beaucoup d'attention, elle nécessitait des installations complexes et du matériel lourd.

Fig 2. Aperçu du projet Starline(Source).

‍

Au fil des ans, Google a perfectionné le logiciel et rationalisé le matériel, au fur et à mesure que la technologie progressait. Après quatre années de développement, le projet Starline est devenu Google Beam, une solution plus compacte et plus conviviale.

Google Beam utilise l'IA pour améliorer les appels vidéo en créant des images plus réalistes, en 3D, des personnes avec lesquelles vous parlez. Il transforme les vidéos 2D habituelles en vues qui s'adaptent aux différents angles, ce qui permet de maintenir le contact visuel et de mieux voir les expressions faciales. Il comprend également des fonctionnalités telles que la traduction en temps réel, le suivi de la tête et l'audio spatial.

Aperçu de Google Beam

Google Beam a été conçu pour fonctionner sans accessoires supplémentaires tels que des casques de réalité augmentée (AR) ou de réalité virtuelle (VR). Au lieu de cela, il est doté de son propre écran intégré, d'un système de caméra et d'un matériel permettant de créer des images en 3D. Les appels vidéo sont ainsi plus naturels, plus confortables et plus attrayants que les réunions vidéo habituelles.

Fig. 3. Exemple d'utilisation de Google Beam(Source).

‍

Comment Google Beam crée des réunions virtuelles réalistes

Maintenant que nous avons expliqué comment Google Beam a vu le jour, examinons de plus près son fonctionnement.

Capture d'images pour une collaboration immersive à distance

Tout commence par la capture d'informations visuelles. Beam utilise six caméras haute résolution pour prendre des photos sous différents angles en même temps.

Ces caméras permettent de suivre les traits du visage, le langage corporel et les petits mouvements en temps réel. L'IA joue un rôle clé en optimisant les réglages des caméras et en assurant la synchronisation parfaite de tous les flux vidéo. Le système est ainsi prêt pour l'étape suivante : le traitement des données.

De l'image 2D à la vidéoconférence 3D

Ensuite, l'IA est utilisée pour combiner les six flux de caméras 2D afin de générer un modèle 3D en temps réel de la personne vue. Plutôt que de simplement superposer des images 2D, elle reconstruit la profondeur, les ombres et les relations spatiales pour créer un jumeau numérique en 3D.

Pour construire ce modèle 3D, Beam utilise des techniques d' intelligence artificielle et de vision par ordinateur telles que l'estimation de la profondeur et le suivi des mouvements. Ces méthodes permettent de déterminer la distance qui sépare une personne de la caméra, ses mouvements et la position de son corps. Grâce à ces données, le système peut cartographier avec précision les traits du visage et les parties du corps dans l'espace 3D.

Le modèle d'IA qui sous-tend Beam met à jour la représentation 3D à 60 images par seconde (FPS) pour que les conversations restent fluides et réalistes. Il procède également à des ajustements en temps réel pour refléter avec précision les mouvements de la personne.

Fig 4. Les six caméras de Google Beam capturent des images sous différents angles(Source).

‍

Systèmes d'affichage du champ lumineux de Google Beam

Le modèle 3D est affiché sur le système Beam du récepteur à l'aide d'un écran à champ lumineux. Contrairement aux écrans conventionnels qui présentent la même image aux deux yeux, un écran à champ lumineux émet des images légèrement différentes pour chaque œil, simulant la façon dont nous percevons la profondeur dans la vie réelle. Cela crée une expérience visuelle tridimensionnelle plus réaliste.

Fig 5. Échange de high-five virtuels par le biais de Google Beam(Source).

‍

Suivi de la tête en temps réel avec une précision de l'ordre du millimètre

L'une des caractéristiques les plus impressionnantes de Google Beam est sa capacité de suivi en temps réel de l'IA. Le système utilise un suivi précis de la tête et des yeux pour suivre les mouvements dans les moindres détails.

Par exemple, le moteur d'IA de Beam peut suivre en permanence la position de la tête de l'utilisateur et procéder à des ajustements subtils de l'image en temps réel. Cela donne l'impression que la personne à l'écran est réellement assise en face de vous. Lorsque vous bougez la tête, l'image 3D se modifie en conséquence, comme lors d'une véritable conversation en face à face.

Traitement audio pour une communication virtuelle améliorée par l'IA

Beam améliore également l'expérience audio en utilisant un son spatial qui correspond à l'endroit où la personne apparaît à l'écran. Si une personne se trouve à gauche de l'écran, sa voix semblera provenir de la gauche. Lorsque la personne change de position, le son s'adapte à elle. Les conversations semblent ainsi plus naturelles et votre cerveau peut suivre la personne qui parle sans effort supplémentaire.

Il s'agit d'une combinaison de techniques audio directionnelles et de suivi en temps réel. Beam utilise l'audio spatial pour simuler la façon dont nous percevons naturellement le son dans le monde réel (en fonction de la direction d'où il vient et de la façon dont il atteint chaque oreille). Le système suit également les mouvements de la tête du spectateur et ajuste la sortie audio en conséquence, de sorte que le son reste "attaché" à la personne à l'écran.

Applications de Google Beam

Google Beam, bien qu'il en soit encore à ses débuts, présente un potentiel prometteur dans le domaine de la vidéoconférence. Voici quelques-unes de ses principales applications :

Collaboration à distance : Google Beam peut rendre les réunions plus personnelles et plus efficaces, en particulier les discussions entre dirigeants ou les négociations à fort enjeu. En captant des facteurs subtils tels que le langage corporel et le contact visuel, il aide les personnes à se sentir plus présentes, même lorsqu'elles sont éloignées les unes des autres.
‍
L'éducation: Beam peut rendre l'apprentissage virtuel plus passionnant et plus accessible. Imaginez un scientifique donnant un cours en direct à des étudiants à l'autre bout du monde, et vous aurez l'impression qu'ils sont dans la même pièce.
‍
Santé: La télémétrie pourrait rendre les consultations à distance plus personnelles. Lorsque les médecins et les patients peuvent se voir clairement et établir un contact visuel naturel, la confiance s'installe et l'interaction semble plus humaine.
‍
Industries créatives : Pour les personnes travaillant dans des domaines créatifs, comme les animateurs, les artistes et les producteurs, Beam peut faciliter le travail d'équipe à distance et le rendre plus naturel. Qu'il s'agisse d'un brainstorming ou de l'examen d'un projet, on a davantage l'impression d'être assis dans un studio que de participer à un appel vidéo.

Avantages et inconvénients de Google Beam

Voici quelques-uns des principaux avantages qu'apporte une innovation telle que Google Beam :

Aucun casque n'est nécessaire : Contrairement à de nombreuses technologies immersives, Beam fonctionne sans nécessiter de casque AR ou VR. Cela rend l'expérience plus confortable et évite les problèmes courants tels que le mal des transports ou l'inconvénient de porter un équipement supplémentaire.
‍
Réduction de la fatigue due à l'écran: L'affichage 3D offre une expérience visuelle plus naturelle et plus confortable, ce qui peut contribuer à réduire la fatigue oculaire par rapport au fait de regarder des écrans plats pendant de longues périodes.
‍
Traduction linguistique en temps réel : Beam peut intégrer une traduction en temps réel alimentée par l'IA, ce qui permet aux personnes parlant des langues différentes de communiquer naturellement lors de réunions internationales ou dans des environnements d'apprentissage.

La poutre est une avancée prometteuse, mais comme toute nouvelle technologie, elle présente quelques limites. Voici quelques éléments à prendre en compte :

Exigences matérielles : Le faisceau nécessite un équipement spécialisé et haut de gamme, tel que des écrans à champ lumineux et des caméras multiples, ce qui le rend coûteux et moins accessible aux particuliers et aux petites organisations.
‍
Il n'est pas portable : Le système Beam est conçu pour une installation fixe et n'est pas destiné à être facilement déplacé, ce qui limite sa flexibilité et son utilisation dans des environnements mobiles ou changeants.

Principaux enseignements

Google Beam est une étape fascinante vers une communication virtuelle plus humaine. Bien qu'il n'en soit qu'à ses débuts, il a le potentiel de transformer notre façon de nous rencontrer, de nous connecter et de collaborer. En combinant l'IA avancée, l'imagerie 3D et l'audio spatial, il crée une expérience à distance plus réaliste et plus attrayante.

Alors que Google continue d'améliorer le matériel de Beam, de le rendre encore plus petit et éventuellement de le mettre à la disposition des utilisateurs quotidiens, il offre des possibilités passionnantes pour l'avenir de la communication virtuelle. Avec les nouvelles tendances technologiques telles que les réunions holographiques et les avatars en 3D, Beam établit une nouvelle norme pour les réunions virtuelles.

Rejoignez notre communauté et découvrez nos options de licence pour vous lancer dès aujourd'hui dans la vision par ordinateur. Consultez notre dépôt GitHub pour en savoir plus sur l'IA. Lisez nos pages de solutions pour obtenir des informations sur les différents cas d'utilisation de l'IA dans le commerce de détail et de la vision par ordinateur dans l'agriculture.

Exploration de Google Beam : un outil de vidéoconférence 3D de nouvelle génération

Du projet Starline à Google Beam

Aperçu de Google Beam

Comment Google Beam crée des réunions virtuelles réalistes

Capture d'images pour une collaboration immersive à distance

De l'image 2D à la vidéoconférence 3D

Systèmes d'affichage du champ lumineux de Google Beam

Suivi de la tête en temps réel avec une précision de l'ordre du millimètre

Traitement audio pour une communication virtuelle améliorée par l'IA

Applications de Google Beam

Avantages et inconvénients de Google Beam

Principaux enseignements

Plus d'informations dans cette catégorie

FastVLM : Apple présente son nouveau modèle de langage de vision rapide

Automatisation de la fabrication grâce à l'IA visionnaire

L'internet industriel des objets (IIoT) expliqué

Construisons ensemble le futur
de l'IA !

Exploration de Google Beam : un outil de vidéoconférence 3D de nouvelle génération

Du projet Starline à Google Beam

Aperçu de Google Beam

Comment Google Beam crée des réunions virtuelles réalistes

Capture d'images pour une collaboration immersive à distance

De l'image 2D à la vidéoconférence 3D

Systèmes d'affichage du champ lumineux de Google Beam

Suivi de la tête en temps réel avec une précision de l'ordre du millimètre

Traitement audio pour une communication virtuelle améliorée par l'IA

Applications de Google Beam

Avantages et inconvénients de Google Beam

Principaux enseignements

Plus d'informations dans cette catégorie

FastVLM : Apple présente son nouveau modèle de langage de vision rapide

Automatisation de la fabrication grâce à l'IA visionnaire

L'internet industriel des objets (IIoT) expliqué

Construisons ensemble le futur de l'IA !

Construisons ensemble le futur
de l'IA !