Il modello del mondo AI Genie 3 di DeepMind converte prompt di testo o immagini in ambienti 3D. Questo progresso segna un altro passo verso l'intelligenza simile a quella umana.
.webp)
Il modello del mondo AI Genie 3 di DeepMind converte prompt di testo o immagini in ambienti 3D. Questo progresso segna un altro passo verso l'intelligenza simile a quella umana.
Il 5 agosto 2025, Google DeepMind ha rilasciato l'ultima versione del modello Genie, noto come Genie 3. Si tratta di un nuovo modello di IA in grado di convertire i prompt di testo di un utente in ambienti dinamici e interattivi.
Questi ambienti, o mondi di IA, consentono all'utente di navigare e interagire con essi in tempo reale, proprio come in un videogioco. Gli utenti possono anche espandere o modificare l'ambiente fornendo ulteriori prompt di testo, consentendo modifiche al volo senza riavviare la simulazione.
Ciò che rende l'ultimo modello Genie di Google particolarmente incisivo è che può essere utilizzato per il training di agenti IA. Ciò comporta l'insegnamento agli agenti IA a prendere decisioni o eseguire compiti utilizzando dati e feedback. Utilizzando un ambiente 3D simulato invece del mondo reale, i ricercatori possono evitare molte delle sfide, dei costi e dei rischi del training nel mondo reale.
Google Genie 3 può anche simulare scenari complessi, come testare un'auto a guida autonoma che guida in condizioni meteorologiche avverse o una tuta alare che plana attraverso un terreno montuoso.
In questo articolo esploreremo Google Genie 3 e le sue capacità. Iniziamo!
Prima di approfondire i modelli Genie di Google DeepMind, cerchiamo di capire meglio cosa sono i modelli del mondo.
I modelli del mondo sono sistemi di IA che apprendono le regole del mondo reale come la fisica, il movimento e le relazioni spaziali da testo, immagini, video e set di dati di movimento. Questo permette loro di creare scene realistiche e di prevedere come si evolvono. I modelli Genie sono esempi di tali sistemi.
Ecco una rapida occhiata ai precedenti modelli Google Genie che hanno aperto la strada a Genie 3:
Basato sui precedenti modelli Genie, Genie 3 è l'ultimo e più avanzato della serie. Si fonda in particolare su Genie 2, che poteva generare nuovi ambienti virtuali, e su Veo 3, l'ultimo modello di generazione video di Google DeepMind. Veo 3 dimostra una profonda comprensione della fisica e di come gli oggetti interagiscono nel mondo reale.
Mentre Veo 3 utilizza un motore fisico hard-coded, Google Genie 3 insegna a se stesso come funziona la fisica utilizzando un metodo noto come apprendimento auto-supervisionato. È una tecnica di apprendimento dell'IA in cui un modello di IA apprende schemi e relazioni da dati non etichettati generando i propri segnali di apprendimento.
La capacità di autoapprendimento supervisionato di Google Genie 3 è fondamentale per l'addestramento di sistemi di IA, come agenti o robot AI, per gestire varie attività. Infatti, i ricercatori di Google DeepMind considerano Genie 3 un passo importante verso la creazione di una Intelligenza Artificiale Generale (AGI).
L'AGI è una forma teorica di IA in grado di comprendere e apprendere qualsiasi compito o argomento e applicare tale conoscenza in diverse situazioni, proprio come un essere umano. A differenza dei modelli di intelligenza artificiale odierni, che sono costruiti per compiti specifici e faticano a trasferire le proprie competenze a nuovi problemi, l'AGI sarebbe in grado di adattarsi e apprendere in un'ampia gamma di contesti.
Ecco alcune delle funzionalità chiave supportate da Genie 3:
Google Genie 3 può rendere l'apprendimento, la ricerca e la formazione più coinvolgenti e immersivi. Ad esempio, nelle classi, può dare vita alla storia, alla scienza o alla geografia, consentendo agli studenti di esplorare città antiche o viaggiare nello spazio. Allo stesso modo, per gli sviluppatori di intelligenza artificiale, offre mondi virtuali realistici per mettere in pratica strategie, affrontare sfide e migliorare le capacità decisionali.
Gli scienziati possono anche utilizzarla per creare simulazioni controllate per testare idee, studiare ecosistemi o osservare il comportamento degli oggetti. Un'altra applicazione interessante è nello sviluppo di videogiochi. Gli sviluppatori di giochi possono trasformare prompt di testo in mondi di gioco dettagliati, accelerando lo sviluppo e riducendo la necessità di grandi team.
Sebbene Google Genie 3 offra molte funzionalità e vantaggi, è anche importante considerare i suoi svantaggi.
Ecco alcune limitazioni da considerare:
Google Genie 3 rappresenta un significativo passo avanti nella creazione di mondi 3D realistici e interattivi con l'IA. Può dare vita a idee partendo da semplici input di testo, simulare la fisica e persino addestrare sistemi di IA in spazi virtuali sicuri.
Sebbene abbia ancora dei limiti, apre molte possibilità per la ricerca, il gaming e lo sviluppo dell'IA. È anche un passo fondamentale verso i sistemi AGI in grado di pensare e imparare più come gli umani.
Dai un'occhiata al nostro repository GitHub per scoprire di più sull'IA. Unisciti alla nostra community attiva e scopri le innovazioni in settori come l'IA nel settore retail e la Vision AI nella produzione. Per iniziare oggi stesso con la computer vision, consulta le nostre opzioni di licenza.