Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Exploration de Google Beam : un outil de visioconférence 3D de nouvelle génération

Abirami Vina

4 min de lecture

19 juin 2025

Découvrez Google Beam, un outil de visioconférence 3D de nouvelle génération. Découvrez comment il utilise l'imagerie 3D et l'IA pour permettre des réunions virtuelles réalistes et immersives.

Les appels vidéo et les réunions virtuelles ont rendu possible le travail à distance, aidant les équipes à rester connectées à travers les pays et les fuseaux horaires. Ils sont devenus une partie intégrante de nos vies et ont changé notre façon de communiquer.

Cependant, malgré leur utilisation généralisée, la technologie de base de la visioconférence est restée pratiquement inchangée pendant des années. Grâce aux récentes avancées, les plateformes de visioconférence commencent à évoluer, dans le but d'offrir une expérience plus naturelle et réaliste.

Il est intéressant de noter que lors de sa conférence annuelle des développeurs (Google I/O 2025), Google a présenté son nouvel outil de communication vidéo, connu sous le nom de Google Beam. Beam utilise l'intelligence artificielle (IA) et la technologie de visioconférence 3D pour dépasser les écrans plats traditionnels et créer une expérience plus immersive et en personne.

Fig. 1. Le PDG de Google, Sundar Pichai, présentant Google Beam (Source).

En réalité, Google Beam est conçu pour donner l'impression que la personne à qui vous parlez est juste en face de vous. Contrairement aux appels vidéo classiques, il rétablit des signaux humains subtils, tels que le contact visuel et les mouvements naturels qui changent avec votre perspective, des détails souvent perdus sur les écrans plats.

Dans cet article, nous allons plonger en profondeur dans ce qu'est Google Beam, comment il a été développé, comment il fonctionne et ses applications. Commençons !

Du Project Starline à Google Beam

Avant d'examiner de plus près Google Beam, essayons de mieux comprendre son prédécesseur, le projet Starline.

Présenté lors de Google I/O 2021, le projet Starline était une initiative de recherche visant à rendre la communication à distance plus réaliste, presque comme si vous étiez dans la même pièce. Il fonctionnait en créant des images 3D de personnes en temps réel et à taille réelle. Même si la technologie a attiré beaucoup d'attention, elle nécessitait des configurations complexes et du matériel lourd.

Fig. 2. Aperçu du Project Starline (Source).

Au fil des ans, à mesure que la technologie progressait, Google a affiné le logiciel et rationalisé le matériel. Après quatre ans de développement, le Project Starline a évolué pour devenir Google Beam, une solution plus compacte et conviviale.

Google Beam utilise l'IA pour améliorer les appels vidéo en créant des images plus réalistes, de type 3D, des personnes à qui vous parlez. Il transforme la vidéo 2D ordinaire en vues qui s'ajustent avec différents angles, aidant à maintenir le contact visuel et à rendre les expressions faciales plus faciles à voir. Il comprend également des fonctionnalités telles que la traduction en temps réel, le suivi de la tête et l'audio spatial.

Aperçu de Google Beam

Google Beam a été développé pour fonctionner sans accessoires supplémentaires tels que des casques de réalité augmentée (RA) ou de réalité virtuelle (RV). Au lieu de cela, il est livré avec son propre écran intégré, son système de caméra et son matériel pour créer des visuels 3D. Cela rend les appels vidéo plus naturels, confortables et engageants que les réunions vidéo typiques.

Fig 3. Un exemple d'utilisation de Google Beam (Source).

Comment Google Beam crée des réunions virtuelles réalistes

Maintenant que nous avons expliqué comment Google Beam a vu le jour, examinons de plus près son fonctionnement.

Capture d'images pour une collaboration immersive à distance

Tout commence par la capture d’informations visuelles. Beam utilise six caméras haute résolution pour prendre des photos sous différents angles en même temps. 

Ces caméras aident à suivre les traits du visage, le langage corporel et les petits mouvements en temps réel. L'IA joue un rôle clé en optimisant les paramètres de la caméra et en assurant une synchronisation parfaite de tous les flux vidéo. Cela prépare le système pour l'étape suivante : le traitement des données.

De l'image 2D à la visioconférence 3D

Ensuite, l'IA est utilisée pour combiner les six flux de caméras 2D afin de générer un modèle 3D en temps réel de la personne visualisée. Plutôt que de simplement superposer des images 2D, elle reconstruit la profondeur, les ombres et les relations spatiales pour créer un jumeau numérique 3D complet.

Pour construire ce modèle 3D, Beam utilise l'IA et des techniques de vision par ordinateur telles que l'estimation de la profondeur et le suivi de mouvement. Ces méthodes aident à déterminer la distance entre une personne et la caméra, comment elle se déplace et comment son corps est positionné. Grâce à ces données, le système peut cartographier avec précision les traits du visage et les parties du corps dans l'espace 3D.

Le modèle d'IA derrière Beam met à jour la représentation 3D à 60 images par seconde (IPS) pour que les conversations restent fluides et réalistes. Il effectue également des ajustements en temps réel pour refléter fidèlement les mouvements de la personne.

Fig. 4. Les six caméras de Google Beam capturent des images sous différents angles (Source).

Les systèmes d'affichage à champ lumineux de Google Beam

Le modèle 3D est affiché sur le système Beam du récepteur à l'aide d'un écran à champ lumineux. Contrairement aux écrans conventionnels qui présentent la même image aux deux yeux, un écran à champ lumineux émet des images légèrement différentes à chaque œil, simulant la façon dont nous percevons la profondeur dans la vie réelle. Cela crée une expérience visuelle tridimensionnelle plus réaliste.

Fig 5. Échange de high-fives virtuels via Google Beam (Source).

Suivi de la tête en temps réel avec une précision millimétrique

L'une des caractéristiques les plus impressionnantes de Google Beam est sa capacité de suivi en temps réel par l'IA. Le système utilise un suivi précis de la tête et des yeux pour suivre les mouvements dans les moindres détails. 

Par exemple, le moteur d'IA de Beam peut suivre en permanence la position de la tête de l'utilisateur et apporter de légers ajustements à l'image en temps réel. Cela donne l'impression que la personne à l'écran est vraiment assise en face de vous. Lorsque vous bougez la tête, l'image 3D se déplace en conséquence, comme dans une vraie conversation en face à face.

Traitement audio pour la communication virtuelle améliorée par l'IA

Beam améliore également l'expérience audio en utilisant un son spatial qui correspond à l'endroit où la personne apparaît à l'écran. Si quelqu'un se trouve sur le côté gauche de l'écran, sa voix semblera provenir de la gauche. Au fur et à mesure qu'il change de position, l'audio s'adapte à lui. Cela rend les conversations plus naturelles et aide votre cerveau à suivre qui parle sans effort supplémentaire.

Cela fonctionne en combinant des techniques audio directionnelles avec un suivi en temps réel. Beam utilise l'audio spatial pour simuler la façon dont nous percevons naturellement le son dans le monde réel (en fonction de la direction d'où il provient et de la façon dont il atteint chaque oreille). Le système suit également les mouvements de la tête du spectateur et ajuste la sortie audio en conséquence, de sorte que le son reste « attaché » à la personne à l'écran. 

Applications de Google Beam

Google Beam, bien qu'encore à ses débuts, montre un potentiel prometteur dans le domaine de la visioconférence. Voici quelques-unes de ses principales applications :

  • Collaboration à distance : Google Beam peut rendre les réunions, en particulier les discussions de leadership ou les négociations à enjeux élevés, plus personnelles et efficaces. En capturant des facteurs subtils comme le langage corporel et le contact visuel, il aide les gens à se sentir plus présents, même lorsqu'ils sont éloignés.
  • Éducation: Beam a le potentiel de rendre l'apprentissage virtuel plus passionnant et accessible. Imaginez un scientifique donnant une conférence en direct à des étudiants à l'autre bout du monde, et que l'on ait réellement l'impression qu'ils sont dans la même pièce. 
  • Soins de santé: Beam pourrait rendre les consultations à distance plus personnelles. Lorsque les médecins et les patients peuvent se voir clairement et établir un contact visuel naturel, cela renforce la confiance et rend l'interaction plus humaine.
  • Secteurs créatifs : Pour les personnes travaillant dans les domaines de la création, comme les animateurs, les artistes et les producteurs, Beam peut rendre le travail d'équipe à distance plus facile et plus naturel. Qu'il s'agisse de remue-méninges ou de l'examen d'un projet, on a plus l'impression d'être assis ensemble dans un studio que de participer à un appel vidéo.

Avantages et inconvénients de Google Beam

Voici quelques-uns des principaux avantages qu'apporte une innovation comme Google Beam :

  • Aucun casque nécessaire : Contrairement à de nombreuses technologies immersives, Beam fonctionne sans nécessiter de casque AR ou VR. Cela rend l’expérience plus confortable et évite les problèmes courants comme le mal des transports ou les inconvénients liés au port d’équipement supplémentaire.
  • Fatigue oculaire réduite : L'écran 3D offre une expérience visuelle plus naturelle et confortable, ce qui peut aider à réduire la fatigue oculaire par rapport au fait de regarder des écrans plats pendant de longues périodes.
  • Traduction linguistique en temps réel : Beam peut intégrer la traduction en temps réel basée sur l'IA, ce qui permet aux personnes qui parlent des langues différentes de communiquer naturellement lors de réunions internationales ou dans des environnements d'apprentissage.

Beam est une avancée prometteuse, mais comme toute nouvelle technologie, elle présente quelques limites. Voici quelques éléments à prendre en compte :

  • Exigences matérielles : Beam nécessite un équipement spécialisé haut de gamme, tel que des écrans à champ lumineux et plusieurs caméras, ce qui le rend coûteux et moins accessible aux particuliers et aux petites organisations.
  • Non portable : Le système Beam est conçu pour une installation fixe et n'est pas destiné à être facilement déplacé, ce qui limite sa flexibilité et son utilisation dans des environnements mobiles ou changeants.

Principaux points à retenir

Google Beam est une étape fascinante vers une communication virtuelle plus humaine. Bien qu'il en soit encore à ses débuts, il a le potentiel de transformer notre façon de nous rencontrer, de nous connecter et de collaborer. En combinant l'IA avancée, l'imagerie 3D et l'audio spatial, il crée une expérience à distance plus réaliste et engageante.

Alors que Google continue d'améliorer le matériel de Beam, de le rendre encore plus petit et de potentiellement l'amener aux utilisateurs quotidiens, cela apporte des possibilités passionnantes pour l'avenir de la communication virtuelle. Parallèlement aux nouvelles tendances technologiques telles que les réunions holographiques et les avatars 3D, Beam établit une nouvelle norme pour les réunions virtuelles.

Rejoignez notre communauté et consultez nos options de licence pour démarrer avec la vision par ordinateur dès aujourd'hui. Consultez notre dépôt GitHub pour en savoir plus sur l'IA. Consultez nos pages de solutions pour obtenir des informations sur les différents cas d'utilisation de l'IA dans le commerce de détail et de la vision par ordinateur dans l'agriculture

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers