Google Genie 3 dà vita al tuo mondo 3D con l'AI
Il modello mondiale AI Genie 3 di DeepMind converte prompt di testo o immagini in ambienti 3D. Questo progresso segna un altro passo verso un'intelligenza simile a quella umana.

Il 5 agosto 2025, Google DeepMind ha rilasciato la sua ultima versione del modello Genie, nota come Genie 3. È un nuovo modello di IA in grado di convertire i prompt testuali dell'utente in ambienti dinamici e interattivi.
Questi ambienti, o mondi IA, consentono all'utente di navigare e interagire con essi in tempo reale, proprio come in un videogioco. Puoi anche espandere o modificare l'ambiente fornendo ulteriori prompt testuali, consentendo cambiamenti immediati senza riavviare la simulazione.
Ciò che rende l'ultimo modello Google Genie particolarmente efficace è che può essere utilizzato per addestrare agenti IA. Questo comporta l'insegnamento agli agenti IA a prendere decisioni o eseguire compiti utilizzando dati e feedback. Utilizzando un ambiente 3D simulato anziché il mondo reale, i ricercatori possono evitare molte delle sfide, dei costi e dei rischi dell'addestramento nel mondo reale.
Google Genie 3 può anche simulare scenari complessi, come il test di un'auto autonoma che guida in condizioni meteorologiche avverse o una tuta alare che plana attraverso un terreno montuoso.
In questo articolo, esploreremo Google Genie 3 e le sue funzionalità. Iniziamo!

Fig 1. Un fotogramma da una simulazione di Genie 3 che mostra una tuta alare che plana. (Fonte)
Link to this sectionUna breve storia dei modelli Genie di Google#
Prima di immergerci nei modelli Genie di Google DeepMind, cerchiamo di capire meglio cosa sono i modelli del mondo.
I modelli del mondo sono sistemi di IA che apprendono le regole del mondo reale come la fisica, il movimento e le relazioni spaziali da dataset di testo, immagini, video e movimento. Questo consente loro di creare scene realistiche e prevedere come si evolvono. I modelli Genie sono esempi di tali sistemi.
Ecco una rapida panoramica dei precedenti modelli Google Genie che hanno aperto la strada a Genie 3:
-
Genie 1: Genie 1, spesso chiamato semplicemente Google Genie, è stato il primo modello del mondo di IA di Google DeepMind in grado di creare ambienti virtuali interattivi. Gli utenti potevano descrivere un mondo con testo, immagini, foto o persino schizzi, e Genie lo generava, consentendo loro di controllare le azioni all'interno della scena. È stato progettato per elaborare dati video nel tempo, prevedere il fotogramma successivo e tradurre gli input dell'utente in azioni all'interno del mondo.
-
Genie 2: Basandosi sulle capacità di Google Genie, Genie 2 poteva creare una vasta gamma di mondi 3D dettagliati e interattivi. Come modello del mondo, simulava ambienti virtuali e rispondeva in modo realistico ad azioni come saltare, nuotare o spostare oggetti. Addestrato su una vasta collezione di video, presentava interazioni realistiche con gli oggetti e movimenti dei personaggi naturali.
Link to this sectionCos'è Genie 3? Il nuovo modello di IA di Google#
Basandosi sui precedenti modelli Genie, Genie 3 è il più recente e avanzato della serie. Si basa in particolare su Genie 2, che poteva generare nuovi ambienti virtuali, e su Veo 3, l'ultimo modello di generazione video di Google DeepMind. Veo 3 dimostra una profonda comprensione della fisica e di come gli oggetti interagiscono nel mondo reale.
Mentre Veo 3 utilizza un motore fisico hard-coded, Google Genie 3 insegna a se stesso come funziona la fisica utilizzando un metodo noto come apprendimento auto-supervisionato. È una tecnica di apprendimento IA in cui un modello IA apprende schemi e relazioni da dati non etichettati generando i propri segnali di apprendimento.
La capacità di apprendimento auto-supervisionato di Google Genie 3 è cruciale per l'addestramento di sistemi IA, come agenti IA o robot IA, per gestire vari compiti. Infatti, i ricercatori di Google DeepMind vedono Genie 3 come un passo importante verso la creazione dell'Intelligenza Artificiale Generale (AGI).

Fig 2. Un esempio dell'uso di Google Genie 3 per simulare il controllo di un rover robotico. (Fonte)
L'AGI è una forma teorica di IA in grado di comprendere e apprendere qualsiasi compito o argomento e applicare tale conoscenza in situazioni diverse, proprio come un essere umano. A differenza degli attuali modelli di intelligenza artificiale, costruiti per compiti specifici e che faticano a trasferire le proprie competenze su nuovi problemi, l'AGI sarebbe in grado di adattarsi e apprendere in un'ampia gamma di contesti.
Link to this sectionCaratteristiche chiave di Google Genie 3 relative alla costruzione di un mondo IA#
Ecco alcune delle caratteristiche chiave supportate da Genie 3:
-
Generazione di mondi Text-to-3D: Può trasformare un semplice prompt testuale (es. "un robot che cammina lungo la strada") in un ambiente simile al 3D giocabile con controlli di movimento di base.
-
Eventi del mondo basati su prompt: Gli utenti possono cambiare dinamicamente l'ambiente digitando nuovi comandi (es. aggiungi pioggia alla strada).
-
Memoria visiva: Genie 3 può ricordare gli oggetti lasciati nell'ambiente e consentirti di rivisitarli in seguito, con una durata di circa un minuto.
-
Output video fluido e coerente: Può mantenere un output video di 24 fps (fotogrammi al secondo) a una risoluzione di 720p, con un coinvolgimento più lungo rispetto a Genie 2.

Fig 3. Google Genie 3 può generare output che durano più a lungo di quelli prodotti da Genie 2. (Fonte)
Link to this sectionDall'istruzione al gaming: Applicazioni di Genie 3 di Google DeepMind#
Google Genie 3 può rendere l'apprendimento, la ricerca e l'addestramento più immersivi e coinvolgenti. Ad esempio, nelle aule, può dare vita a storia, scienza o geografia permettendo agli studenti di esplorare antiche città o viaggiare attraverso lo spazio. Allo stesso modo, per gli sviluppatori di intelligenza artificiale, offre mondi virtuali realistici per esercitare strategie, affrontare sfide e migliorare le capacità decisionali.
Gli scienziati possono anche utilizzarlo per creare simulazioni controllate per testare idee, studiare ecosistemi o osservare il comportamento degli oggetti. Un'altra applicazione interessante è nello sviluppo di videogiochi. Gli sviluppatori di giochi possono trasformare prompt testuali in mondi di gioco dettagliati, accelerando lo sviluppo e riducendo la necessità di grandi team.

Fig 4. Giochi divertenti, colorati e interattivi possono essere progettati utilizzando Genie 3. (Fonte)
Link to this sectionLimitazioni di Google Genie 3 come modello del mondo#
Sebbene Google Genie 3 offra molte funzionalità e vantaggi, è importante considerare anche i suoi svantaggi.
Ecco alcune limitazioni da considerare:
-
Gamma di azioni limitata: Sebbene tu possa attivare molti eventi nel mondo virtuale, non tutti vengono eseguiti dall'agente stesso. Le azioni che un agente può eseguire direttamente sono ancora limitate.
-
Interazione con altri agenti: Creare interazioni realistiche tra più agenti indipendenti nello stesso ambiente è ancora un lavoro in corso.
-
Precisione nel mondo reale: Google Genie 3 non è ancora in grado di ricreare luoghi del mondo reale con una precisione geografica perfetta.
Link to this sectionPunti chiave#
Google Genie 3 rappresenta un progresso significativo nella creazione di mondi 3D interattivi e realistici con l'IA. Può dare vita a idee da semplici prompt testuali, simulare la fisica e persino addestrare sistemi IA in spazi virtuali sicuri.
Sebbene abbia ancora dei limiti, apre molte possibilità per la ricerca, il gaming e lo sviluppo di IA. È anche un passo cruciale verso sistemi AGI in grado di pensare e apprendere più come gli umani.
Dai un'occhiata al nostro repository GitHub per scoprire di più sull'IA. Unisciti alla nostra community attiva e scopri le innovazioni in settori come l'IA nella vendita al dettaglio e l'IA di visione nella produzione. Per iniziare oggi con la computer vision, dai un'occhiata alle nostre opzioni di licenza.






