Yolo Vision Shenzhen
Shenzhen
Iscriviti ora

Esplorazione di Google Beam: uno strumento di videoconferenza 3D di nuova generazione

Scoprite Google Beam, uno strumento di videoconferenza 3D di nuova generazione. Scoprite come utilizza l'imaging 3D e l'intelligenza artificiale per consentire riunioni virtuali realistiche e coinvolgenti.

Le videochiamate e le riunioni virtuali hanno reso possibile il lavoro da remoto, aiutando i team a rimanere connessi tra paesi e fusi orari diversi. Sono diventate una parte integrante della nostra vita e hanno cambiato il modo in cui comunichiamo.

Tuttavia, nonostante il loro ampio utilizzo, la tecnologia di base alla base delle videoconferenze è rimasta per lo più invariata per anni. Grazie ai recenti progressi, le piattaforme di videoconferenza stanno iniziando a cambiare, con l'obiettivo di apparire più naturali e realistiche.

È interessante notare che alla conferenza annuale degli sviluppatoriGoogle I/O 2025), Google ha presentato il suo nuovo strumento di comunicazione video, noto come Google Beam. Beam utilizza l' intelligenza artificiale (AI) e la tecnologia di videoconferenza 3D per andare oltre i tradizionali schermi piatti e creare un'esperienza più coinvolgente e personale.

Figura 1. Il CEO di Google, Sundar Pichai, presenta Google Beam(Fonte).

In effetti, Google Beam è stato progettato per dare la sensazione che la persona con cui si sta parlando sia proprio lì davanti a noi. A differenza delle normali videochiamate, restituisce i sottili segnali umani, come il contatto visivo e il movimento naturale che cambia a seconda della prospettiva, dettagli che spesso si perdono sugli schermi piatti.

In questo articolo approfondiremo cos'è Google Beam, come è stato sviluppato, come funziona e le sue applicazioni. Iniziamo!

Passare dal Progetto Starline a Google Beam

Prima di dare un'occhiata più da vicino a Google Beam, cerchiamo di capire meglio il suo predecessore, Project Starline.

Presentato al Google I/O 2021, Project Starline era un'iniziativa di ricerca che mirava a rendere la comunicazione a distanza più realistica, quasi come se ci si trovasse nella stessa stanza. Funzionava creando immagini 3D a grandezza naturale delle persone in tempo reale. Anche se la tecnologia ha attirato molta attenzione, richiedeva configurazioni complesse e hardware pesante.

Fig. 2. Uno sguardo al Project Starline (Fonte).

Nel corso degli anni, con l'avanzare della tecnologia, Google ha perfezionato il software e semplificato l'hardware. Dopo quattro anni di sviluppo, il Project Starline si è evoluto in Google Beam, una soluzione più compatta e facile da usare.

Google Beam utilizza l'intelligenza artificiale per migliorare le videochiamate creando immagini più realistiche e in 3D delle persone con cui si parla. Trasforma i normali video 2D in viste che si adattano alle diverse angolazioni, aiutando a mantenere il contatto visivo e rendendo più visibili le espressioni facciali. Include anche funzioni come la traduzione in tempo reale, il tracciamento della testa e l'audio spaziale.

Una panoramica di Google Beam

Google Beam è stato sviluppato per funzionare senza accessori aggiuntivi come le cuffie per la realtà aumentata (AR) o la realtà virtuale (VR). Al contrario, è dotato di un display, di un sistema di telecamere e di un hardware integrati per creare immagini in 3D. In questo modo le videochiamate risultano più naturali, comode e coinvolgenti rispetto alle tipiche riunioni video.

Figura 3. Un esempio di utilizzo di Google Beam(fonte).

Come Google Beam crea riunioni virtuali realistiche

Ora che abbiamo discusso di come è nato Google Beam, diamo un'occhiata più da vicino al suo funzionamento.

Acquisizione di immagini per una collaborazione remota immersiva

Tutto inizia con l'acquisizione di informazioni visive. Beam utilizza sei telecamere ad alta risoluzione per scattare foto da diverse angolazioni contemporaneamente. 

Queste telecamere aiutano a track tratti del viso, il linguaggio del corpo e i piccoli movimenti in tempo reale. L'intelligenza artificiale svolge un ruolo fondamentale ottimizzando le impostazioni delle telecamere e mantenendo tutti i feed video perfettamente sincronizzati. Questo prepara il sistema alla fase successiva: l'elaborazione dei dati.

Immagine 2D a videoconferenza 3D

Successivamente, l'IA viene utilizzata per combinare i sei feed delle telecamere 2D per generare un modello 3D in tempo reale della persona inquadrata. Invece di sovrapporre semplicemente immagini 2D, ricostruisce la profondità, le ombre e le relazioni spaziali per creare un digital twin 3D completo.

Per costruire questo modello 3D, Beam utilizza l'intelligenza artificiale e tecniche di computer vision come la stima della profondità e il tracciamento del movimento. Questi metodi aiutano a determinare la distanza di una persona dalla telecamera, come si muove e come è posizionato il suo corpo. Con questi dati, il sistema può mappare accuratamente le caratteristiche del viso e le parti del corpo nello spazio 3D.

Il modello di IA alla base di Beam aggiorna la rappresentazione 3D a 60 frame al secondo (FPS) per mantenere le conversazioni fluide e realistiche. Inoltre, apporta modifiche in tempo reale per riflettere accuratamente i movimenti della persona.

Figura 4. Le sei telecamere di Google Beam catturano immagini da diverse angolazioni(Fonte).

I sistemi di visualizzazione a campo chiaro di Google Beam

Il modello 3D viene visualizzato sul sistema Beam del ricevitore utilizzando un display a campo di luce. A differenza degli schermi convenzionali che presentano la stessa immagine a entrambi gli occhi, un display a campo di luce emette immagini leggermente diverse a ciascun occhio, simulando il modo in cui percepiamo la profondità nella vita reale. Questo crea un'esperienza visiva tridimensionale più realistica.

Figura 5. Scambio di battimani virtuali attraverso Google Beam(Fonte).

Tracciamento della testa in tempo reale con precisione millimetrica

Una delle caratteristiche più impressionanti di Google Beam è la capacità di seguire l'intelligenza artificiale in tempo reale. Il sistema utilizza un preciso tracciamento della testa e degli occhi per seguire i movimenti fin nei minimi dettagli. 

Ad esempio, il motore AI di Beam è in grado di track continuamente la posizione della testa dell'utente e di apportare sottili modifiche all'immagine in tempo reale. In questo modo si ha l'impressione che la persona sullo schermo sia davvero seduta di fronte a noi. Quando si muove la testa, l'immagine 3D si sposta di conseguenza, proprio come in una vera conversazione faccia a faccia.

Elaborazione audio per la comunicazione virtuale potenziata dall'AI

Beam migliora anche l'esperienza audio utilizzando un suono spaziale che corrisponde alla posizione in cui la persona appare sullo schermo. Se qualcuno si trova sul lato sinistro del display, la sua voce sembrerà provenire da sinistra. Man mano che cambiano posizione, l'audio si adatta a loro. Questo rende le conversazioni più naturali e aiuta il cervello a seguire chi sta parlando senza sforzo aggiuntivo.

Questo funziona combinando tecniche audio direzionali con il tracciamento in tempo reale. Beam utilizza l'audio spaziale per simulare il modo in cui percepiamo naturalmente il suono nel mondo reale (in base alla direzione da cui proviene e a come raggiunge ciascun orecchio). Il sistema traccia anche i movimenti della testa dello spettatore e regola di conseguenza l'uscita audio, in modo che il suono rimanga "attaccato" alla persona sullo schermo. 

Applicazioni di Google Beam

Google Beam, sebbene ancora in fase iniziale, mostra un potenziale promettente nel settore delle videoconferenze. Ecco alcune delle sue applicazioni principali:

  • Collaborazione a distanza: Google Beam può rendere più personali ed efficaci le riunioni, in particolare le discussioni di leadership o le trattative ad alto rischio. Catturando fattori sottili come il linguaggio del corpo e il contatto visivo, aiuta le persone a sentirsi più presenti, anche quando sono lontane.
  • Education: Beam ha il potenziale per rendere l'apprendimento virtuale più coinvolgente e accessibile. Immagina uno scienziato che tiene una lezione dal vivo a studenti dall'altra parte del mondo, e sembra davvero che siano nella stessa stanza. 
  • Healthcare: Beam potrebbe rendere le consultazioni a distanza più personali. Quando medici e pazienti possono vedersi chiaramente e stabilire un contatto visivo naturale, si crea fiducia e l'interazione risulta più umana.
  • Settori creativi: Per le persone che lavorano in settori creativi, come animatori, artisti e produttori, Beam può rendere il lavoro di squadra a distanza più facile e naturale. Che si tratti di fare brainstorming o di rivedere un progetto, sembra più di essere seduti insieme in uno studio che di essere in una videochiamata.

Pro e contro di Google Beam

Ecco alcuni dei principali vantaggi offerti da un'innovazione come Google Beam:

  • Non sono necessari visori: A differenza di molte tecnologie immersive, Beam funziona senza richiedere visori AR o VR. Questo rende l'esperienza più confortevole ed evita problemi comuni come il mal di movimento o l'inconveniente di indossare attrezzature extra.
  • Riduzione dell'affaticamento visivo: Il display 3D offre un'esperienza di visualizzazione più naturale e confortevole, che può contribuire a ridurre l'affaticamento degli occhi rispetto alla visione prolungata di schermi piatti.
  • Traduzione linguistica in tempo reale: Beam può integrare la traduzione in tempo reale basata sull'intelligenza artificiale, rendendo più facile per le persone che parlano lingue diverse comunicare in modo naturale in riunioni internazionali o ambienti di apprendimento.

Beam è un passo avanti promettente, ma come ogni nuova tecnologia, presenta alcune limitazioni. Ecco alcune cose da considerare:

  • Requisiti hardware: Beam richiede attrezzature specializzate e di fascia alta, come display light-field e più telecamere, il che lo rende costoso e meno accessibile per i singoli e le organizzazioni più piccole.
  • Non portatile: Il sistema di Beam è progettato per l'installazione fissa e non è pensato per essere spostato facilmente, il che limita la sua flessibilità e il suo utilizzo in ambienti mobili o mutevoli.

Punti chiave

Google Beam è un passo affascinante verso una comunicazione virtuale più umana. Pur essendo ancora nelle sue fasi iniziali, ha il potenziale per trasformare il modo in cui ci incontriamo, ci connettiamo e collaboriamo. Grazie alla combinazione di intelligenza artificiale avanzata, immagini 3D e audio spaziale, crea un'esperienza a distanza più realistica e coinvolgente.

Google continua a migliorare l'hardware di Beam, a renderlo ancora più piccolo e possibilmente a portarlo agli utenti di tutti i giorni, offrendo interessanti possibilità per il futuro della comunicazione virtuale. Insieme alle nuove tendenze tecnologiche come le riunioni olografiche e gli avatar 3D, Beam sta definendo un nuovo standard per le riunioni virtuali.

Unisciti alla nostra community e dai un'occhiata alle nostre opzioni di licenza per iniziare oggi stesso con la computer vision. Consulta il nostro repository GitHub per saperne di più sull'AI. Leggi le nostre pagine dedicate alle soluzioni per ottenere informazioni sui vari casi d'uso dell'AI nel retail e della computer vision in agricoltura

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis