Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten

Google Beam erkunden: Ein 3D-Videokonferenztool der nächsten Generation

Abirami Vina

4 Min. Lesezeit

19. Juni 2025

Erfahren Sie mehr über Google Beam, ein 3D-Videokonferenztool der nächsten Generation. Entdecken Sie, wie es 3D-Bildgebung und KI verwendet, um lebensechte und immersive virtuelle Meetings zu ermöglichen.

Videoanrufe und virtuelle Meetings haben die Remote-Arbeit ermöglicht und helfen Teams, über Länder und Zeitzonen hinweg in Verbindung zu bleiben. Sie sind zu einem festen Bestandteil unseres Lebens geworden und haben die Art und Weise, wie wir kommunizieren, verändert.

Trotz ihrer weitverbreiteten Nutzung ist die Kerntechnologie hinter Videokonferenzen seit Jahren weitgehend unverändert geblieben. Dank der jüngsten Fortschritte beginnen sich Videokonferenzplattformen zu verändern, mit dem Ziel, sich natürlicher und lebensechter anzufühlen.

Interessanterweise hat Google auf seiner jährlichen Entwicklerkonferenz (Google I/O 2025) sein neues Videokommunikationstool namens Google Beam vorgestellt. Beam nutzt künstliche Intelligenz (KI) und 3D-Videokonferenztechnologie, um über traditionelle Flachbildschirme hinauszugehen und ein intensiveres, persönliches Erlebnis zu schaffen.

Abb. 1. Sundar Pichai, CEO von Google, stellt Google Beam vor (Quelle).

Tatsächlich ist Google Beam so konzipiert, dass es sich anfühlt, als ob die Person, mit der Sie sprechen, direkt vor Ihnen steht. Im Gegensatz zu normalen Videoanrufen bringt es subtile menschliche Signale zurück, wie Augenkontakt und natürliche Bewegungen, die sich mit Ihrer Perspektive verschieben – Details, die auf flachen Bildschirmen oft verloren gehen.

In diesem Artikel werden wir tief in das eintauchen, was Google Beam ist, wie es entwickelt wurde, wie es funktioniert und welche Anwendungen es gibt. Lass uns anfangen!

Von Project Starline zu Google Beam

Bevor wir Google Beam genauer unter die Lupe nehmen, wollen wir uns ein besseres Verständnis seines Vorgängers, Project Starline, verschaffen.

Das auf der Google I/O 2021 vorgestellte Project Starline war eine Forschungsinitiative, die darauf abzielte, die Remote-Kommunikation so lebensecht wie möglich zu gestalten, fast so, als ob man sich im selben Raum befände. Es funktionierte, indem es lebensgroße 3D-Bilder von Personen in Echtzeit erstellte. Obwohl die Technologie viel Aufmerksamkeit erregte, erforderte sie komplexe Setups und aufwendige Hardware.

Abb. 2. Ein Blick auf Project Starline (Quelle).

Im Laufe der Jahre, mit dem technologischen Fortschritt, hat Google die Software verfeinert und die Hardware optimiert. Nach vier Jahren Entwicklung hat sich Project Starline zu Google Beam entwickelt - einer kompakteren und benutzerfreundlicheren Lösung.

Google Beam nutzt KI, um Videoanrufe zu verbessern, indem es realistischere, 3D-ähnliche Bilder der Personen erzeugt, mit denen Sie sprechen. Es verwandelt reguläre 2D-Videos in Ansichten, die sich an verschiedene Winkel anpassen, wodurch der Augenkontakt aufrechterhalten und Mimik leichter erkennbar wird. Es enthält auch Funktionen wie Echtzeitübersetzung, Head-Tracking und räumliches Audio.

Ein Überblick über Google Beam

Google Beam wurde so entwickelt, dass es ohne zusätzliches Zubehör wie Augmented Reality (AR)- oder Virtual Reality (VR)-Headsets funktioniert. Stattdessen verfügt es über ein eigenes eingebautes Display, ein Kamerasystem und Hardware zur Erzeugung von 3D-Visualisierungen. Dadurch fühlen sich Videoanrufe natürlicher, komfortabler und ansprechender an als typische Videokonferenzen.

Abb. 3. Ein Beispiel für die Verwendung von Google Beam (Quelle).

Wie Google Beam realistische virtuelle Meetings erzeugt

Nachdem wir nun besprochen haben, wie Google Beam entstanden ist, wollen wir uns genauer ansehen, wie es funktioniert.

Bilderfassung für immersive Remote-Zusammenarbeit

Alles beginnt mit der Erfassung visueller Informationen. Beam verwendet sechs hochauflösende Kameras, um gleichzeitig Bilder aus verschiedenen Winkeln aufzunehmen. 

Diese Kameras helfen dabei, Gesichtszüge, Körpersprache und kleine Bewegungen in Echtzeit zu verfolgen. KI spielt eine Schlüsselrolle bei der Optimierung der Kameraeinstellungen und der perfekten Synchronisierung aller Video-Feeds. Dies bereitet das System auf die nächste Stufe vor: die Datenverarbeitung.

2D-Bild zu 3D-Videokonferenz

Als Nächstes wird KI verwendet, um die sechs 2D-Kamera-Feeds zu kombinieren und ein Echtzeit-3D-Modell der betrachteten Person zu erstellen. Anstatt einfach 2D-Bilder übereinander zu legen, rekonstruiert es Tiefe, Schatten und räumliche Beziehungen, um einen vollständigen digitalen 3D-Zwilling zu erstellen.

Um dieses 3D-Modell zu erstellen, verwendet Beam KI und Computer-Vision-Techniken wie Tiefenschätzung und Bewegungsverfolgung. Diese Methoden helfen dabei, zu bestimmen, wie weit eine Person von der Kamera entfernt ist, wie sie sich bewegt und wie ihr Körper positioniert ist. Mit diesen Daten kann das System Gesichtsmerkmale und Körperteile im 3D-Raum genau abbilden.

Das KI-Modell hinter Beam aktualisiert die 3D-Darstellung mit 60 Frames per Second (FPS), um Konversationen flüssig und lebensecht zu gestalten. Es nimmt auch Echtzeit-Anpassungen vor, um die Bewegungen der Person präzise wiederzugeben.

Abb. 4. Die sechs Kameras von Google Beam erfassen Bilder aus verschiedenen Blickwinkeln (Quelle).

Die Lichtfeld-Displaysysteme von Google Beam

Das 3D-Modell wird auf dem Beam-System des Empfängers mithilfe eines Lichtfeld-Displays angezeigt. Im Gegensatz zu herkömmlichen Bildschirmen, die beiden Augen das gleiche Bild präsentieren, sendet ein Lichtfeld-Display leicht unterschiedliche Bilder an jedes Auge und simuliert so die Art und Weise, wie wir Tiefe im realen Leben wahrnehmen. Dies erzeugt ein realistischeres, dreidimensionales visuelles Erlebnis.

Abb. 5. Austausch von virtuellen High-Fives über Google Beam (Quelle).

Millimetergenaue Echtzeit-Kopfverfolgung

Eine der beeindruckendsten Funktionen von Google Beam ist seine KI-Tracking-Fähigkeit in Echtzeit. Das System verwendet präzises Kopf- und Eye-Tracking, um Bewegungen bis ins kleinste Detail zu verfolgen. 

Beispielsweise kann die KI-Engine von Beam kontinuierlich die Kopfposition des Benutzers verfolgen und in Echtzeit subtile Anpassungen am Bild vornehmen. Dies erweckt den Eindruck, dass die Person auf dem Bildschirm wirklich Ihnen gegenübersitzt. Wenn Sie Ihren Kopf bewegen, verschiebt sich das 3D-Bild entsprechend, genau wie in einem echten, persönlichen Gespräch.

Audioverarbeitung für KI-gestützte virtuelle Kommunikation

Beam verbessert auch das Audioerlebnis, indem es räumlichen Klang verwendet, der zu der Position der Person auf dem Bildschirm passt. Wenn sich jemand auf der linken Seite des Bildschirms befindet, klingt seine Stimme, als käme sie von links. Wenn sich die Person bewegt, passt sich das Audio entsprechend an. Dies lässt Gespräche natürlicher wirken und hilft Ihrem Gehirn, ohne zusätzlichen Aufwand zu verfolgen, wer spricht.

Dies funktioniert durch die Kombination von direktionalen Audiotechniken mit Echtzeit-Tracking. Beam verwendet Spatial Audio, um zu simulieren, wie wir Schall in der realen Welt auf natürliche Weise wahrnehmen (basierend auf der Richtung, aus der er kommt, und wie er jedes Ohr erreicht). Das System verfolgt auch die Kopfbewegungen des Betrachters und passt die Audioausgabe entsprechend an, sodass der Ton an der Person auf dem Bildschirm “attached” bleibt. 

Anwendungen von Google Beam

Google Beam befindet sich zwar noch in einem frühen Stadium, zeigt aber vielversprechendes Potenzial im Bereich der Videokonferenzen. Hier sind einige seiner wichtigsten Anwendungsbereiche:

  • Remote-Zusammenarbeit: Google Beam kann Besprechungen, insbesondere Führungsdiskussionen oder Verhandlungen mit hohem Einsatz, persönlicher und effektiver gestalten. Durch die Erfassung subtiler Faktoren wie Körpersprache und Blickkontakt hilft es den Menschen, sich präsenter zu fühlen, auch wenn sie weit voneinander entfernt sind.
  • Bildung: Beam hat das Potenzial, virtuelles Lernen spannender und zugänglicher zu machen. Stellen Sie sich vor, ein Wissenschaftler hält einen Live-Vortrag vor Studenten auf der anderen Seite der Welt, und es fühlt sich tatsächlich so an, als wären sie im selben Raum. 
  • Gesundheitswesen: Beam könnte Remote-Beratungen persönlicher gestalten. Wenn Ärzte und Patienten sich klar sehen und natürlichen Blickkontakt herstellen können, baut dies Vertrauen auf und lässt die Interaktion menschlicher wirken.
  • Kreativbranchen: Für Personen in kreativen Bereichen wie Animatoren, Künstler und Produzenten kann sich die Remote-Teamarbeit mit Beam einfacher und natürlicher anfühlen. Ob es sich um das Brainstorming von Ideen oder die Überprüfung eines Projekts handelt, es fühlt sich eher wie ein gemeinsames Zusammensitzen in einem Studio an als ein Videoanruf.

Vor- und Nachteile von Google Beam

Hier sind einige der wichtigsten Vorteile, die eine Innovation wie Google Beam mit sich bringt:

  • Keine Headsets erforderlich: Im Gegensatz zu vielen immersiven Technologien funktioniert Beam, ohne dass AR- oder VR-Headsets erforderlich sind. Dies macht die Erfahrung komfortabler und vermeidet häufige Probleme wie Reisekrankheit oder die Unannehmlichkeit, zusätzliche Geräte zu tragen.
  • Reduzierte Bildschirmermüdung: Das 3D-Display bietet ein natürlicheres und angenehmeres Seherlebnis, das dazu beitragen kann, die Augenbelastung im Vergleich zum Starren auf flache Bildschirme über längere Zeiträume zu reduzieren.
  • Echtzeit-Sprachübersetzung: Beam kann KI-gestützte Echtzeitübersetzung integrieren, wodurch es für Menschen, die verschiedene Sprachen sprechen, einfacher wird, in internationalen Meetings oder Lernumgebungen natürlich zu kommunizieren.

Beam ist ein vielversprechender Schritt nach vorn, aber wie jede neue Technologie hat sie auch einige Einschränkungen. Hier sind einige Punkte, die Sie berücksichtigen sollten:

  • Hardwareanforderungen: Beam erfordert spezielle High-End-Geräte wie Lichtfeld-Displays und mehrere Kameras, was es teuer und für Einzelpersonen und kleinere Organisationen weniger zugänglich macht.
  • Nicht portabel: Das System von Beam ist für die feste Installation konzipiert und nicht für den einfachen Transport gedacht, was seine Flexibilität und Verwendung in mobilen oder sich ändernden Umgebungen einschränkt.

Wesentliche Erkenntnisse

Google Beam ist ein faszinierender Schritt hin zu einer menschlicheren virtuellen Kommunikation. Obwohl es sich noch in einem frühen Stadium befindet, hat es das Potenzial, die Art und Weise, wie wir uns treffen, verbinden und zusammenarbeiten, zu verändern. Durch die Kombination von fortschrittlicher KI, 3D-Bildgebung und räumlichem Audio entsteht ein lebensechteres und ansprechenderes Remote-Erlebnis.

Da Google die Hardware von Beam immer weiter verbessert, sie noch kleiner macht und sie möglicherweise für alltägliche Nutzer zugänglich macht, ergeben sich aufregende Möglichkeiten für die Zukunft der virtuellen Kommunikation. Zusammen mit neuen technologischen Trends wie holografischen Meetings und 3D-Avataren setzt Beam einen neuen Standard für virtuelle Meetings.

Treten Sie unserer Community bei und werfen Sie einen Blick auf unsere Lizenzoptionen, um noch heute mit Computer Vision zu beginnen. Besuchen Sie unser GitHub-Repository, um mehr über KI zu erfahren. Lesen Sie unsere Lösungsseiten, um Einblicke in verschiedene Anwendungsfälle von KI im Einzelhandel und Computer Vision in der Landwirtschaft zu erhalten. 

Lasst uns gemeinsam die Zukunft
der KI gestalten!

Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens

Kostenlos starten
Link in die Zwischenablage kopiert