Google Genie 3: DeepMind presenta un nuovo modello di IA

Il 5 agosto 2025, Google DeepMind ha rilasciato l'ultima versione del modello Genie, noto come Genie 3. Si tratta di un nuovo modello di IA in grado di convertire i prompt di testo di un utente in ambienti dinamici e interattivi.

Questi ambienti, o mondi di IA, consentono all'utente di navigare e interagire con essi in tempo reale, proprio come in un videogioco. Gli utenti possono anche espandere o modificare l'ambiente fornendo ulteriori prompt di testo, consentendo modifiche al volo senza riavviare la simulazione.

Ciò che rende l'ultimo modello Genie di Google particolarmente incisivo è che può essere utilizzato per il training di agenti IA. Ciò comporta l'insegnamento agli agenti IA a prendere decisioni o eseguire compiti utilizzando dati e feedback. Utilizzando un ambiente 3D simulato invece del mondo reale, i ricercatori possono evitare molte delle sfide, dei costi e dei rischi del training nel mondo reale.

Google Genie 3 può anche simulare scenari complessi, come testare un'auto a guida autonoma che guida in condizioni meteorologiche avverse o una tuta alare che plana attraverso un terreno montuoso.

In questo articolo esploreremo Google Genie 3 e le sue capacità. Iniziamo!

Fig. 1. Un fotogramma di una simulazione di Genie 3 che mostra un uomo in tuta alare che plana. (Fonte)

‍

Una breve storia dei modelli Genie di Google

Prima di approfondire i modelli Genie di Google DeepMind, cerchiamo di capire meglio cosa sono i modelli del mondo.

I modelli del mondo sono sistemi di IA che apprendono le regole del mondo reale come la fisica, il movimento e le relazioni spaziali da testo, immagini, video e set di dati di movimento. Questo permette loro di creare scene realistiche e di prevedere come si evolvono. I modelli Genie sono esempi di tali sistemi.

Ecco una rapida occhiata ai precedenti modelli Google Genie che hanno aperto la strada a Genie 3:

Genie 1: Genie 1, spesso chiamato semplicemente Google Genie, è stato il primo modello di mondo AI di Google DeepMind in grado di creare ambienti virtuali interattivi. Gli utenti potevano descrivere un mondo con testo, immagini, foto o persino schizzi e Genie lo generava, consentendo loro di controllare le azioni all'interno della scena. È stato progettato per elaborare dati video nel tempo, prevedere il frame successivo e tradurre gli input dell'utente in azioni nel mondo.

Genie 2: Basandosi sulle capacità di Google Genie, Genie 2 poteva creare una vasta gamma di mondi 3D interattivi e dettagliati. Come modello di mondo, simulava ambienti virtuali e rispondeva in modo realistico ad azioni come saltare, nuotare o spostare oggetti. Addestrato su una vasta raccolta di video, presentava interazioni realistiche tra oggetti e movimenti realistici dei personaggi.

Cos'è Genie 3? Il nuovo modello AI di Google

Basato sui precedenti modelli Genie, Genie 3 è l'ultimo e più avanzato della serie. Si fonda in particolare su Genie 2, che poteva generare nuovi ambienti virtuali, e su Veo 3, l'ultimo modello di generazione video di Google DeepMind. Veo 3 dimostra una profonda comprensione della fisica e di come gli oggetti interagiscono nel mondo reale.

Mentre Veo 3 utilizza un motore fisico hard-coded, Google Genie 3 insegna a se stesso come funziona la fisica utilizzando un metodo noto come apprendimento auto-supervisionato. È una tecnica di apprendimento dell'IA in cui un modello di IA apprende schemi e relazioni da dati non etichettati generando i propri segnali di apprendimento.

La capacità di autoapprendimento supervisionato di Google Genie 3 è fondamentale per l'addestramento di sistemi di IA, come agenti o robot AI, per gestire varie attività. Infatti, i ricercatori di Google DeepMind considerano Genie 3 un passo importante verso la creazione di una Intelligenza Artificiale Generale (AGI).

Fig. 2. Un esempio di utilizzo di Google Genie 3 per simulare il controllo di un rover robotico. (Fonte)

‍

L'AGI è una forma teorica di IA in grado di comprendere e apprendere qualsiasi compito o argomento e applicare tale conoscenza in diverse situazioni, proprio come un essere umano. A differenza dei modelli di intelligenza artificiale odierni, che sono costruiti per compiti specifici e faticano a trasferire le proprie competenze a nuovi problemi, l'AGI sarebbe in grado di adattarsi e apprendere in un'ampia gamma di contesti.

Caratteristiche principali di Google Genie 3 relative alla costruzione di un mondo AI

Ecco alcune delle funzionalità chiave supportate da Genie 3:

Generazione di mondi 3D da testo: Può trasformare un semplice prompt di testo (ad esempio, "un robot che cammina per strada") in un ambiente giocabile simile al 3D con controlli di movimento di base.

Eventi mondiali richiedibili (Promptable): Gli utenti possono modificare dinamicamente l'ambiente digitando nuovi comandi (ad esempio, aggiungere pioggia alla strada).

Memoria visiva: Genie 3 può ricordare gli oggetti lasciati nell'ambiente e consentirti di rivisitarli in seguito, per circa un minuto.

Output video fluido e coerente: Può mantenere un output video di 24 fps (fotogrammi al secondo) a una risoluzione di 720p, con un coinvolgimento più lungo rispetto a Genie 2.

Fig. 3. Google Genie 3 può generare output che durano più a lungo di quelli prodotti da Genie 2.

‍

Dall'istruzione al gaming: Applicazioni di Genie 3 di Google DeepMind

Google Genie 3 può rendere l'apprendimento, la ricerca e la formazione più coinvolgenti e immersivi. Ad esempio, nelle classi, può dare vita alla storia, alla scienza o alla geografia, consentendo agli studenti di esplorare città antiche o viaggiare nello spazio. Allo stesso modo, per gli sviluppatori di intelligenza artificiale, offre mondi virtuali realistici per mettere in pratica strategie, affrontare sfide e migliorare le capacità decisionali.

Gli scienziati possono anche utilizzarla per creare simulazioni controllate per testare idee, studiare ecosistemi o osservare il comportamento degli oggetti. Un'altra applicazione interessante è nello sviluppo di videogiochi. Gli sviluppatori di giochi possono trasformare prompt di testo in mondi di gioco dettagliati, accelerando lo sviluppo e riducendo la necessità di grandi team.

Fig. 4. Giochi divertenti, colorati e interattivi possono essere progettati utilizzando Genie 3. (Source)

‍

Limiti di Google Genie 3 come modello del mondo

Sebbene Google Genie 3 offra molte funzionalità e vantaggi, è anche importante considerare i suoi svantaggi.

Ecco alcune limitazioni da considerare:

Intervallo di azione limitato: Sebbene sia possibile attivare molti eventi nel mondo virtuale, non tutti vengono eseguiti dall'agente stesso. Le azioni che un agente può eseguire direttamente sono ancora limitate.

Interazione con altri agenti: La creazione di interazioni realistiche tra più agenti indipendenti nello stesso ambiente è ancora un lavoro in corso.

Accuratezza nel mondo reale: Google Genie 3 non è ancora in grado di ricreare posizioni del mondo reale con una precisione geografica perfetta.

Punti chiave

Google Genie 3 rappresenta un significativo passo avanti nella creazione di mondi 3D realistici e interattivi con l'IA. Può dare vita a idee partendo da semplici input di testo, simulare la fisica e persino addestrare sistemi di IA in spazi virtuali sicuri.

Sebbene abbia ancora dei limiti, apre molte possibilità per la ricerca, il gaming e lo sviluppo dell'IA. È anche un passo fondamentale verso i sistemi AGI in grado di pensare e imparare più come gli umani.

Dai un'occhiata al nostro repository GitHub per scoprire di più sull'IA. Unisciti alla nostra community attiva e scopri le innovazioni in settori come l'IA nel settore retail e la Vision AI nella produzione. Per iniziare oggi stesso con la computer vision, consulta le nostre opzioni di licenza.

Google Genie 3 dà vita al tuo mondo 3D con l'IA

Una breve storia dei modelli Genie di Google

Cos'è Genie 3? Il nuovo modello AI di Google

Caratteristiche principali di Google Genie 3 relative alla costruzione di un mondo AI

Dall'istruzione al gaming: Applicazioni di Genie 3 di Google DeepMind

Limiti di Google Genie 3 come modello del mondo

Punti chiave

Leggi di più in questa categoria

Analisi delle tracce di animali nella neve utilizzando la computer vision

La Vision AI può essere utilizzata per rilevare l'usura all'interno di un pneumatico

L'IA può rilevare le azioni umane? Esplorando il riconoscimento delle attività

Costruiamo insieme il futuro
dell'AI!

Google Genie 3 dà vita al tuo mondo 3D con l'IA

Una breve storia dei modelli Genie di Google

Cos'è Genie 3? Il nuovo modello AI di Google

Caratteristiche principali di Google Genie 3 relative alla costruzione di un mondo AI

Dall'istruzione al gaming: Applicazioni di Genie 3 di Google DeepMind

Limiti di Google Genie 3 come modello del mondo

Punti chiave

Leggi di più in questa categoria

Analisi delle tracce di animali nella neve utilizzando la computer vision

La Vision AI può essere utilizzata per rilevare l'usura all'interno di un pneumatico

L'IA può rilevare le azioni umane? Esplorando il riconoscimento delle attività

Costruiamo insieme il futuro dell'AI!

Costruiamo insieme il futuro
dell'AI!