Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Impostazioni dei cookie
Cliccando su “Accetta tutti i cookie”, l'utente accetta di memorizzare i cookie sul proprio dispositivo per migliorare la navigazione del sito, analizzare l'utilizzo del sito e assistere le nostre attività di marketing. Maggiori informazioni
Il modello del mondo AI Genie 3 di DeepMind converte prompt di testo o immagini in ambienti 3D. Questo progresso segna un altro passo verso l'intelligenza simile a quella umana.
Il 5 agosto 2025, Google DeepMind ha rilasciato l'ultima versione del modello Genie, nota come Genie 3. Si tratta di un nuovo modello di intelligenza artificiale in grado di convertire le richieste dell'utente in ambienti dinamici e interattivi. Si tratta di un nuovo modello di intelligenza artificiale in grado di convertire le richieste di testo dell'utente in ambienti dinamici e interattivi.
Questi ambienti, o mondi di IA, consentono all'utente di navigare e interagire con essi in tempo reale, proprio come in un videogioco. Gli utenti possono anche espandere o modificare l'ambiente fornendo ulteriori prompt di testo, consentendo modifiche al volo senza riavviare la simulazione.
Ciò che rende l'ultimo modello Genie Google particolarmente efficace è che può essere utilizzato per addestrare agenti AI. Si tratta di insegnare agli agenti di intelligenza artificiale a prendere decisioni o a eseguire compiti utilizzando dati e feedback. Utilizzando un ambiente 3D simulato invece del mondo reale, i ricercatori possono evitare molte delle sfide, dei costi e dei rischi dell'addestramento nel mondo reale.
Google Genie 3 può anche simulare scenari complessi, come il test di un'auto autonoma che guida in condizioni meteorologiche avverse o di una tuta alare che plana su un terreno montuoso.
In questo articolo esploreremo Google Genie 3 e le sue funzionalità. Iniziamo!
Fig. 1. Un fotogramma di una simulazione di Genie 3 che mostra un uomo in tuta alare che plana. (Fonte)
Breve storia dei modelli Genie di Google
Prima di immergerci nei modelli Genie di Google DeepMind, cerchiamo di capire meglio cosa sono i modelli del mondo.
I modelli del mondo sono sistemi di IA che apprendono le regole del mondo reale come la fisica, il movimento e le relazioni spaziali da testo, immagini, video e set di dati di movimento. Questo permette loro di creare scene realistiche e di prevedere come si evolvono. I modelli Genie sono esempi di tali sistemi.
Ecco una rapida carrellata dei precedenti modelli di Google Genie che hanno aperto la strada a Genie 3:
Genie 1: Genie 1, spesso indicato semplicemente come Google Genie, è stato il primo modello di mondo AI di Google DeepMind in grado di creare ambienti virtuali interattivi. Gli utenti potevano descrivere un mondo con testo, immagini, foto o persino schizzi e Genie lo generava, permettendo loro di controllare le azioni all'interno della scena. È stato progettato per elaborare i dati video nel tempo, prevedere il fotogramma successivo e tradurre gli input dell'utente in azioni nel mondo.
Genie 2: Basandosi sulle capacità di Google Genie, Genie 2 poteva creare un'ampia gamma di mondi 3D dettagliati e interattivi. Come modello di mondo, simulava ambienti virtuali e rispondeva in modo realistico ad azioni come saltare, nuotare o spostare oggetti. Addestrato su un'enorme collezione di video, ha permesso di creare interazioni realistiche con gli oggetti e movimenti realistici dei personaggi.
Cos'è Genie 3? Il nuovo modello di intelligenza artificiale di Google
Basato sui modelli Genie precedenti, Genie 3 è l'ultimo e il più avanzato della serie. Si basa in particolare su Genie 2, in grado di generare nuovi ambienti virtuali, e su Veo 3, l'ultimo modello di generazione video di Google DeepMind. Veo 3 dimostra una profonda comprensione della fisica e di come gli oggetti interagiscono nel mondo reale.
Mentre Veo 3 utilizza un motore fisico codificato, Google Genie 3 insegna da solo come funziona la fisica utilizzando un metodo noto come apprendimento auto-supervisionato. Si tratta di una tecnica di apprendimento dell'intelligenza artificiale in cui un modello di intelligenza artificiale apprende modelli e relazioni da dati non etichettati generando i propri segnali di apprendimento.
La capacità di apprendimento auto-supervisionato di Google Genie 3 è fondamentale per addestrare i sistemi di intelligenza artificiale, come gli agenti di intelligenza artificiale o i robot di intelligenza artificiale, a gestire vari compiti. I ricercatori di Google DeepMind considerano Genie 3 un passo importante verso la creazione di un'intelligenza generale artificiale (AGI).
Figura 2. Un esempio di utilizzo di Google Genie 3 per simulare il controllo di un rover robotico.(Fonte)
L'AGI è una forma teorica di IA in grado di comprendere e apprendere qualsiasi compito o argomento e applicare tale conoscenza in diverse situazioni, proprio come un essere umano. A differenza dei modelli di intelligenza artificiale odierni, che sono costruiti per compiti specifici e faticano a trasferire le proprie competenze a nuovi problemi, l'AGI sarebbe in grado di adattarsi e apprendere in un'ampia gamma di contesti.
Caratteristiche principali di Google Genie 3 relative alla costruzione di un mondo AI
Ecco alcune delle funzionalità chiave supportate da Genie 3:
Generazione di mondi 3D da testo: Può trasformare un semplice prompt di testo (ad esempio, "un robot che cammina per strada") in un ambiente giocabile simile al 3D con controlli di movimento di base.
Eventi mondiali richiedibili (Promptable): Gli utenti possono modificare dinamicamente l'ambiente digitando nuovi comandi (ad esempio, aggiungere pioggia alla strada).
Memoria visiva: Genie 3 può ricordare gli oggetti lasciati nell'ambiente e consentirti di rivisitarli in seguito, per circa un minuto.
Output video fluido e coerente: Può mantenere un output video di 24 fps (fotogrammi al secondo) a una risoluzione di 720p, con un coinvolgimento più lungo rispetto a Genie 2.
Figura 3. Google Genie 3 può generare output che durano più a lungo di quelli prodotti da Genie 2.(Fonte)
Dall'istruzione al gioco: Applicazioni di Genie 3 di Google DeepMind
Google Genie 3 può rendere l'apprendimento, la ricerca e la formazione più coinvolgenti e coinvolgenti. Ad esempio, nelle aule scolastiche può dare vita alla storia, alle scienze o alla geografia, consentendo agli studenti di esplorare antiche città o di viaggiare nello spazio. Allo stesso modo, per gli sviluppatori di intelligenza artificiale, offre mondi virtuali realistici per praticare strategie, affrontare sfide e migliorare le capacità decisionali.
Gli scienziati possono anche utilizzarla per creare simulazioni controllate per testare idee, studiare ecosistemi o osservare il comportamento degli oggetti. Un'altra applicazione interessante è nello sviluppo di videogiochi. Gli sviluppatori di giochi possono trasformare prompt di testo in mondi di gioco dettagliati, accelerando lo sviluppo e riducendo la necessità di grandi team.
Fig. 4. Giochi divertenti, colorati e interattivi possono essere progettati utilizzando Genie 3. (Source)
Limitazioni di Google Genie 3 come modello mondiale
Sebbene Google Genie 3 offra molte funzioni e vantaggi, è importante considerare anche i suoi svantaggi.
Ecco alcune limitazioni da considerare:
Intervallo di azione limitato: Sebbene sia possibile attivare molti eventi nel mondo virtuale, non tutti vengono eseguiti dall'agente stesso. Le azioni che un agente può eseguire direttamente sono ancora limitate.
Interazione con altri agenti: La creazione di interazioni realistiche tra più agenti indipendenti nello stesso ambiente è ancora un lavoro in corso.
Precisione del mondo reale: Google Genie 3 non è ancora in grado di ricreare le località del mondo reale con una precisione geografica perfetta.
Punti chiave
Google Genie 3 rappresenta un significativo progresso nella creazione di mondi 3D realistici e interattivi con l'intelligenza artificiale. È in grado di dare vita a idee partendo da semplici richieste di testo, di simulare la fisica e persino di addestrare i sistemi di intelligenza artificiale in spazi virtuali sicuri.
Sebbene abbia ancora dei limiti, apre molte possibilità per la ricerca, il gaming e lo sviluppo dell'IA. È anche un passo fondamentale verso i sistemi AGI in grado di pensare e imparare più come gli umani.