Google Genie 3 dà vita al vostro mondo 3D con l'AI

Abirami Vina

4 minuti di lettura

15 agosto 2025

Il modello di mondo Genie 3 AI di DeepMind converte le richieste di testo o di immagini in ambienti 3D. Questo progresso segna un ulteriore passo avanti verso un'intelligenza simile a quella umana.

Il 5 agosto 2025, Google DeepMind ha rilasciato l'ultima versione del modello Genie, nota come Genie 3. Si tratta di un nuovo modello di intelligenza artificiale in grado di convertire le richieste dell'utente in ambienti dinamici e interattivi. Si tratta di un nuovo modello di intelligenza artificiale in grado di convertire le richieste di testo dell'utente in ambienti dinamici e interattivi. 

Questi ambienti, o mondi AI, permettono all'utente di navigare e interagire con essi in tempo reale, come in un videogioco. Gli utenti possono anche espandere o modificare l'ambiente fornendo indicazioni di testo aggiuntive, consentendo modifiche al volo senza riavviare la simulazione. 

Ciò che rende l'ultimo modello Genie di Google particolarmente significativo è che può essere utilizzato per addestrare agenti AI. Si tratta di insegnare agli agenti di intelligenza artificiale a prendere decisioni o a eseguire compiti utilizzando dati e feedback. Utilizzando un ambiente 3D simulato invece del mondo reale, i ricercatori possono evitare molte delle sfide, dei costi e dei rischi dell'addestramento nel mondo reale.

Google Genie 3 può anche simulare scenari complessi, come il test di un'auto autonoma che guida in condizioni meteorologiche avverse o di una tuta alare che plana su un terreno montuoso. 

In questo articolo esploreremo Google Genie 3 e le sue funzionalità. Iniziamo!

Figura 1. Un fotogramma di una simulazione Genie 3 che mostra la planata di una tuta alare.(Fonte)

Breve storia dei modelli Genie di Google

Prima di immergerci nei modelli Genie di Google DeepMind, cerchiamo di capire meglio cosa sono i modelli del mondo. 

I modelli del mondo sono sistemi di intelligenza artificiale che imparano le regole del mondo reale, come la fisica, il movimento e le relazioni spaziali, a partire da testi, immagini, video e dati sul movimento. Ciò consente loro di creare scene realistiche e di prevederne l 'evoluzione. I modelli Genie sono esempi di tali sistemi.

Ecco una rapida carrellata dei precedenti modelli di Google Genie che hanno aperto la strada a Genie 3:

  • Genie 1: Genie 1, spesso indicato semplicemente come Google Genie, è stato il primo modello di mondo AI di Google DeepMind in grado di creare ambienti virtuali interattivi. Gli utenti potevano descrivere un mondo con testo, immagini, foto o persino schizzi e Genie lo generava, permettendo loro di controllare le azioni all'interno della scena. È stato progettato per elaborare i dati video nel tempo, prevedere il fotogramma successivo e tradurre gli input dell'utente in azioni nel mondo.
  • Genie 2: Basandosi sulle capacità di Google Genie, Genie 2 poteva creare un'ampia gamma di mondi 3D dettagliati e interattivi. Come modello di mondo, simulava ambienti virtuali e rispondeva in modo realistico ad azioni come saltare, nuotare o spostare oggetti. Addestrato su un'enorme raccolta di video, ha permesso di ottenere interazioni realistiche con gli oggetti e movimenti realistici dei personaggi.

Cos'è Genie 3? Il nuovo modello di intelligenza artificiale di Google

Basato sui modelli Genie precedenti, Genie 3 è l'ultimo e il più avanzato della serie. Si basa in particolare su Genie 2, in grado di generare nuovi ambienti virtuali, e su Veo 3, l'ultimo modello di generazione video di Google DeepMind. Veo 3 dimostra una profonda comprensione della fisica e di come gli oggetti interagiscono nel mondo reale.

Mentre Veo 3 utilizza un motore fisico codificato, Google Genie 3 insegna da solo come funziona la fisica utilizzando un metodo noto come apprendimento auto-supervisionato. Si tratta di una tecnica di apprendimento dell'intelligenza artificiale in cui un modello di intelligenza artificiale apprende modelli e relazioni da dati non etichettati generando i propri segnali di apprendimento. 

La capacità di apprendimento auto-supervisionato di Google Genie 3 è fondamentale per addestrare i sistemi di intelligenza artificiale, come gli agenti di intelligenza artificiale o i robot di intelligenza artificiale, a gestire vari compiti. I ricercatori di Google DeepMind considerano Genie 3 un passo importante verso la creazione di un'intelligenza generale artificiale (AGI)

Figura 2. Un esempio di utilizzo di Google Genie 3 per simulare il controllo di un rover robotico.(Fonte)

L'intelligenza artificiale è una forma teorica di IA in grado di comprendere e apprendere qualsiasi compito o argomento e di applicare tali conoscenze in situazioni diverse, proprio come un essere umano. A differenza degli attuali modelli di intelligenza artificiale, che sono costruiti per compiti specifici e faticano a trasferire le loro competenze a nuovi problemi, l'AGI sarebbe in grado di adattarsi e imparare in un'ampia gamma di contesti.

Caratteristiche principali di Google Genie 3 relative alla costruzione di un mondo AI

Ecco alcune delle principali funzionalità supportate da Genie 3:

  • Generazione di mondi da testo a 3D: È in grado di trasformare una semplice richiesta di testo (ad esempio, "un robot che cammina per strada") in un ambiente giocabile in 3D con controlli di movimento di base.
  • Eventi del mondo promiscui: Gli utenti possono modificare dinamicamente l'ambiente digitando nuovi comandi (ad esempio, aggiungere la pioggia alla strada).
  • Memoria visiva: Genie 3 è in grado di ricordare gli oggetti lasciati nell'ambiente e di farli rivedere in seguito, con una durata di circa un minuto.
  • Uscita video fluida e costante: È in grado di mantenere un'uscita video di 24 fps (fotogrammi al secondo) alla risoluzione di 720p, con un impegno più lungo rispetto a Genie 2.
Figura 3. Google Genie 3 può generare output che durano più a lungo di quelli prodotti da Genie 2.(Fonte)

Dall'istruzione al gioco: Applicazioni di Genie 3 di Google DeepMind

Google Genie 3 può rendere l'apprendimento, la ricerca e la formazione più coinvolgenti e coinvolgenti. Ad esempio, nelle aule scolastiche può dare vita alla storia, alle scienze o alla geografia, consentendo agli studenti di esplorare antiche città o di viaggiare nello spazio. Allo stesso modo, per gli sviluppatori di intelligenza artificiale, offre mondi virtuali realistici per praticare strategie, affrontare sfide e migliorare le capacità decisionali.

Gli scienziati possono anche usarlo per creare simulazioni controllate per testare idee, studiare ecosistemi o osservare il comportamento di oggetti. Un'altra interessante applicazione è lo sviluppo di videogiochi. Gli sviluppatori di videogiochi possono trasformare le richieste di testo in mondi di gioco dettagliati, accelerando lo sviluppo e riducendo la necessità di grandi team.

Figura 4. Con Genie 3 si possono progettare giochi divertenti, colorati e interattivi.(Fonte)

Limitazioni di Google Genie 3 come modello mondiale

Sebbene Google Genie 3 offra molte funzioni e vantaggi, è importante considerare anche i suoi svantaggi. 

Ecco alcune limitazioni da considerare:

  • Campo d'azione limitato: Sebbene sia possibile attivare molti eventi nel mondo virtuale, non tutti vengono eseguiti dall'agente stesso. Le azioni che un agente può eseguire direttamente sono ancora limitate.
  • Interazione con altri agenti: La creazione di interazioni realistiche tra più agenti indipendenti nello stesso ambiente è ancora un lavoro in corso.
  • Precisione del mondo reale: Google Genie 3 non è ancora in grado di ricreare le località del mondo reale con una precisione geografica perfetta.

Punti di forza

Google Genie 3 rappresenta un progresso significativo nella creazione di mondi 3D realistici e interattivi con l'intelligenza artificiale. È in grado di dare vita a idee partendo da semplici richieste di testo, di simulare la fisica e persino di addestrare i sistemi di intelligenza artificiale in spazi virtuali sicuri. 

Pur avendo ancora dei limiti, apre molte possibilità per la ricerca, il gioco e lo sviluppo dell'intelligenza artificiale. È anche un passo fondamentale verso sistemi di intelligenza artificiale in grado di pensare e imparare come gli esseri umani.

Consultate il nostro repository GitHub per scoprire di più sull'IA. Unitevi alla nostra attiva comunità e scoprite le innovazioni in settori come l'IA nel commercio al dettaglio e l'IA di visione nella produzione. Per iniziare a lavorare con la computer vision, date un'occhiata alle nostre opzioni di licenza.

Costruiamo insieme il futuro
dell'IA!

Iniziate il vostro viaggio nel futuro dell'apprendimento automatico

Iniziare gratuitamente
Link copiato negli appunti