Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Entdecken Sie Google Beam: Ein 3D-Videokonferenz-Tool der nächsten Generation

Erfahren Sie mehr über Google Beam, ein 3D-Videokonferenz-Tool der nächsten Generation. Erfahren Sie, wie es 3D-Bilder und künstliche Intelligenz nutzt, um lebensechte und immersive virtuelle Meetings zu ermöglichen.

Videoanrufe und virtuelle Meetings haben die Remote-Arbeit ermöglicht und helfen Teams, über Länder und Zeitzonen hinweg in Verbindung zu bleiben. Sie sind zu einem festen Bestandteil unseres Lebens geworden und haben die Art und Weise, wie wir kommunizieren, verändert.

Trotz ihrer weitverbreiteten Nutzung ist die Kerntechnologie hinter Videokonferenzen seit Jahren weitgehend unverändert geblieben. Dank der jüngsten Fortschritte beginnen sich Videokonferenzplattformen zu verändern, mit dem Ziel, sich natürlicher und lebensechter anzufühlen.

Interessanterweise hat Google auf seiner jährlichen EntwicklerkonferenzGoogle I/O 2025) sein neues Videokommunikationstool, Google Beam, vorgestellt. Beam nutzt künstliche Intelligenz (KI) und 3D-Videokonferenztechnologie, um über herkömmliche Flachbildschirme hinauszugehen und ein intensiveres, persönliches Erlebnis zu schaffen.

Abb. 1. Sundar Pichai, CEO von Google, bei der Einführung von Google Beam(Quelle).

Google Beam ist so konzipiert, dass es sich anfühlt, als ob die Person, mit der Sie sprechen, direkt vor Ihnen sitzt. Anders als bei normalen Videogesprächen werden subtile menschliche Signale wie Augenkontakt und natürliche Bewegungen, die sich mit der Perspektive ändern, wiedergegeben - Details, die auf Flachbildschirmen oft verloren gehen.

In diesem Artikel erfahren Sie, was Google Beam ist, wie es entwickelt wurde, wie es funktioniert und welche Anwendungen es gibt. Legen wir los!

Der Übergang von Project Starline zu Google Beam

Bevor wir uns Google Beam genauer ansehen, sollten wir seinen Vorgänger, Project Starline, besser verstehen.

Das auf der Google I/O 2021 vorgestellte Projekt Starline war eine Forschungsinitiative, die darauf abzielte, die Kommunikation aus der Ferne lebensechter zu gestalten, fast so, als ob man sich im selben Raum befände. Es funktionierte, indem es lebensgroße 3D-Bilder von Menschen in Echtzeit erstellte. Obwohl die Technologie viel Aufmerksamkeit erregte, erforderte sie komplexe Einrichtungen und schwere Hardware.

Abb. 2. Ein Blick auf Project Starline (Quelle).

Im Laufe der Jahre verfeinerte Google mit der fortschreitenden Technologie die Software und optimierte die Hardware. Nach vier Jahren Entwicklungszeit hat sich Project Starline zu Google Beam entwickelt - eine kompaktere und benutzerfreundlichere Lösung.

Google Beam nutzt KI, um Videoanrufe zu verbessern, indem es realistischere, 3D-ähnliche Bilder der Gesprächspartner erstellt. Es verwandelt herkömmliche 2D-Videos in Ansichten, die sich an verschiedene Winkel anpassen, um den Augenkontakt aufrechtzuerhalten und die Mimik besser erkennen zu können. Außerdem bietet es Funktionen wie Echtzeit-Übersetzung, Kopfverfolgung und räumliches Audio.

Ein Überblick über Google Beam

Google Beam wurde entwickelt, um ohne zusätzliches Zubehör wie Augmented Reality (AR)- oder Virtual Reality (VR)-Headsets zu funktionieren. Stattdessen verfügt es über ein eigenes integriertes Display, ein Kamerasystem und Hardware zur Erstellung von 3D-Visualisierungen. Dadurch fühlen sich Videogespräche natürlicher, komfortabler und ansprechender an als typische Videokonferenzen.

Abb. 3. Ein Beispiel für die Verwendung von Google Beam(Quelle).

Wie Google Beam realistische virtuelle Meetings schafft

Nachdem wir nun besprochen haben, wie Google Beam entstanden ist, wollen wir uns die Funktionsweise genauer ansehen.

Bilderfassung für immersive Remote-Zusammenarbeit

Alles beginnt mit der Erfassung visueller Informationen. Beam verwendet sechs hochauflösende Kameras, um gleichzeitig Bilder aus verschiedenen Winkeln aufzunehmen. 

Diese Kameras helfen dabei, Gesichtszüge, Körpersprache und kleine Bewegungen in Echtzeit track . Die KI spielt eine Schlüsselrolle, indem sie die Kameraeinstellungen optimiert und alle Videoübertragungen perfekt synchronisiert. Dies bereitet das System auf die nächste Stufe vor: die Datenverarbeitung.

2D-Bild zu 3D-Videokonferenz

Als Nächstes wird KI verwendet, um die sechs 2D-Kamera-Feeds zu kombinieren und ein Echtzeit-3D-Modell der betrachteten Person zu erstellen. Anstatt einfach 2D-Bilder übereinander zu legen, rekonstruiert es Tiefe, Schatten und räumliche Beziehungen, um einen vollständigen digitalen 3D-Zwilling zu erstellen.

Um dieses 3D-Modell zu erstellen, verwendet Beam KI und Computer-Vision-Techniken wie Tiefenschätzung und Bewegungsverfolgung. Diese Methoden helfen dabei, zu bestimmen, wie weit eine Person von der Kamera entfernt ist, wie sie sich bewegt und wie ihr Körper positioniert ist. Mit diesen Daten kann das System Gesichtsmerkmale und Körperteile im 3D-Raum genau abbilden.

Das KI-Modell hinter Beam aktualisiert die 3D-Darstellung mit 60 Frames per Second (FPS), um Konversationen flüssig und lebensecht zu gestalten. Es nimmt auch Echtzeit-Anpassungen vor, um die Bewegungen der Person präzise wiederzugeben.

Abb. 4. Die sechs Kameras von Google Beam nehmen Bilder aus verschiedenen Blickwinkeln auf(Quelle).

Die Lichtfeld-Display-Systeme von Google Beam

Das 3D-Modell wird auf dem Beam-System des Empfängers mithilfe eines Lichtfeld-Displays angezeigt. Im Gegensatz zu herkömmlichen Bildschirmen, die beiden Augen das gleiche Bild präsentieren, sendet ein Lichtfeld-Display leicht unterschiedliche Bilder an jedes Auge und simuliert so die Art und Weise, wie wir Tiefe im realen Leben wahrnehmen. Dies erzeugt ein realistischeres, dreidimensionales visuelles Erlebnis.

Abb. 5. Austausch von virtuellen High-Fives über Google Beam(Quelle).

Millimetergenaue Echtzeit-Kopfverfolgung

Eine der beeindruckendsten Funktionen von Google Beam ist seine Echtzeit-KI-Tracking-Fähigkeit. Das System nutzt eine präzise Kopf- und Augenverfolgung, um Bewegungen bis ins kleinste Detail zu verfolgen. 

So kann die KI-Engine von Beam beispielsweise die Kopfposition des Nutzers kontinuierlich track und das Bild in Echtzeit anpassen. So entsteht der Eindruck, dass Ihnen die Person auf dem Bildschirm wirklich gegenübersitzt. Wenn Sie Ihren Kopf bewegen, verschiebt sich das 3D-Bild entsprechend, genau wie bei einem echten Gespräch von Angesicht zu Angesicht.

Audioverarbeitung für KI-gestützte virtuelle Kommunikation

Beam verbessert auch das Audioerlebnis, indem es räumlichen Klang verwendet, der zu der Position der Person auf dem Bildschirm passt. Wenn sich jemand auf der linken Seite des Bildschirms befindet, klingt seine Stimme, als käme sie von links. Wenn sich die Person bewegt, passt sich das Audio entsprechend an. Dies lässt Gespräche natürlicher wirken und hilft Ihrem Gehirn, ohne zusätzlichen Aufwand zu verfolgen, wer spricht.

Dies funktioniert durch die Kombination von direktionalen Audiotechniken mit Echtzeit-Tracking. Beam verwendet Spatial Audio, um zu simulieren, wie wir Schall in der realen Welt auf natürliche Weise wahrnehmen (basierend auf der Richtung, aus der er kommt, und wie er jedes Ohr erreicht). Das System verfolgt auch die Kopfbewegungen des Betrachters und passt die Audioausgabe entsprechend an, sodass der Ton an der Person auf dem Bildschirm “attached” bleibt. 

Anwendungen von Google Beam

Google Beam steckt zwar noch in den Kinderschuhen, zeigt aber ein vielversprechendes Potenzial im Bereich der Videokonferenzen. Hier sind einige der wichtigsten Anwendungen:

  • Fernzusammenarbeit: Google Beam kann dafür sorgen, dass sich Besprechungen, insbesondere Diskussionen mit Führungskräften oder Verhandlungen, die unter hohem Druck stehen, persönlicher und effektiver anfühlen. Durch die Erfassung subtiler Faktoren wie Körpersprache und Augenkontakt fühlen sich die Teilnehmer präsenter, selbst wenn sie weit voneinander entfernt sind.
  • Bildung: Beam hat das Potenzial, virtuelles Lernen spannender und zugänglicher zu machen. Stellen Sie sich vor, ein Wissenschaftler hält einen Live-Vortrag vor Studenten auf der anderen Seite der Welt, und es fühlt sich tatsächlich so an, als wären sie im selben Raum. 
  • Gesundheitswesen: Beam könnte Remote-Beratungen persönlicher gestalten. Wenn Ärzte und Patienten sich klar sehen und natürlichen Blickkontakt herstellen können, baut dies Vertrauen auf und lässt die Interaktion menschlicher wirken.
  • Kreativbranchen: Für Personen in kreativen Bereichen wie Animatoren, Künstler und Produzenten kann sich die Remote-Teamarbeit mit Beam einfacher und natürlicher anfühlen. Ob es sich um das Brainstorming von Ideen oder die Überprüfung eines Projekts handelt, es fühlt sich eher wie ein gemeinsames Zusammensitzen in einem Studio an als ein Videoanruf.

Vor- und Nachteile von Google Beam

Hier sind einige der wichtigsten Vorteile, die eine Innovation wie Google Beam mit sich bringt:

  • Keine Headsets erforderlich: Im Gegensatz zu vielen immersiven Technologien funktioniert Beam, ohne dass AR- oder VR-Headsets erforderlich sind. Dies macht die Erfahrung komfortabler und vermeidet häufige Probleme wie Reisekrankheit oder die Unannehmlichkeit, zusätzliche Geräte zu tragen.
  • Reduzierte Bildschirmermüdung: Das 3D-Display bietet ein natürlicheres und angenehmeres Seherlebnis, das dazu beitragen kann, die Augenbelastung im Vergleich zum Starren auf flache Bildschirme über längere Zeiträume zu reduzieren.
  • Echtzeit-Sprachübersetzung: Beam kann KI-gestützte Echtzeitübersetzung integrieren, wodurch es für Menschen, die verschiedene Sprachen sprechen, einfacher wird, in internationalen Meetings oder Lernumgebungen natürlich zu kommunizieren.

Beam ist ein vielversprechender Schritt nach vorn, aber wie jede neue Technologie hat sie auch einige Einschränkungen. Hier sind einige Punkte, die Sie berücksichtigen sollten:

  • Hardwareanforderungen: Beam erfordert spezielle High-End-Geräte wie Lichtfeld-Displays und mehrere Kameras, was es teuer und für Einzelpersonen und kleinere Organisationen weniger zugänglich macht.
  • Nicht portabel: Das System von Beam ist für die feste Installation konzipiert und nicht für den einfachen Transport gedacht, was seine Flexibilität und Verwendung in mobilen oder sich ändernden Umgebungen einschränkt.

Wesentliche Erkenntnisse

Google Beam ist ein faszinierender Schritt, um die virtuelle Kommunikation menschlicher zu gestalten. Es befindet sich zwar noch in der Anfangsphase, hat aber das Potenzial, die Art und Weise, wie wir uns treffen, verbinden und zusammenarbeiten, zu verändern. Durch die Kombination von fortschrittlicher künstlicher Intelligenz, 3D-Bildern und räumlicher Audioübertragung wird die Kommunikation aus der Ferne lebensechter und ansprechender.

Google arbeitet weiter daran, die Hardware von Beam zu verbessern, sie noch kleiner zu machen und sie möglicherweise auch für den normalen Nutzer zugänglich zu machen, was spannende Möglichkeiten für die Zukunft der virtuellen Kommunikation eröffnet. Zusammen mit neuen technologischen Trends wie holografischen Meetings und 3D-Avataren setzt Beam einen neuen Standard für virtuelle Meetings.

Treten Sie unserer Community bei und werfen Sie einen Blick auf unsere Lizenzoptionen, um noch heute mit Computer Vision zu beginnen. Besuchen Sie unser GitHub-Repository, um mehr über KI zu erfahren. Lesen Sie unsere Lösungsseiten, um Einblicke in verschiedene Anwendungsfälle von KI im Einzelhandel und Computer Vision in der Landwirtschaft zu erhalten. 

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten