Google Genie 3 da vida a tu mundo 3D con IA
El modelo mundial de IA Genie 3 de DeepMind convierte indicaciones de texto o imagen en entornos 3D. Este avance marca otro paso hacia una inteligencia similar a la humana.

El 5 de agosto de 2025, Google DeepMind lanzó su última versión del modelo Genie, conocido como Genie 3. Es un nuevo modelo de IA capaz de convertir las instrucciones de texto de un usuario en entornos dinámicos e interactivos.
Estos entornos, o mundos de IA, permiten al usuario navegar e interactuar con ellos en tiempo real, de forma muy parecida a como ocurre en un videojuego. Los usuarios también pueden expandir o modificar el entorno proporcionando instrucciones de texto adicionales, lo que permite realizar cambios al vuelo sin necesidad de reiniciar la simulación.
Lo que hace que el último modelo de Google Genie sea especialmente impactante es que se puede utilizar para entrenar agentes de IA. Esto implica enseñar a los agentes de IA a tomar decisiones o realizar tareas mediante el uso de datos y retroalimentación. Al utilizar un entorno 3D simulado en lugar del mundo real, los investigadores pueden evitar muchos de los desafíos, costes y riesgos del entrenamiento en el mundo real.
Google Genie 3 también puede simular escenarios complejos, como probar un coche autónomo conduciendo con condiciones climáticas adversas o a alguien practicando salto base en terreno montañoso.
En este artículo, exploraremos Google Genie 3 y sus capacidades. ¡Empecemos!

Fig 1. Un fotograma de una simulación de Genie 3 que muestra a alguien practicando salto base. (Fuente)
Link to this sectionUna breve historia de los modelos Genie de Google#
Antes de adentrarnos en los modelos Genie de Google DeepMind, vamos a comprender mejor qué son los modelos de mundo.
Los modelos de mundo son sistemas de IA que aprenden reglas del mundo real como la física, el movimiento y las relaciones espaciales a partir de datasets de texto, imágenes, vídeos y movimiento. Esto les permite crear escenas realistas y predecir cómo evolucionan. Los modelos Genie son ejemplos de estos sistemas.
Aquí tienes un rápido vistazo a los modelos anteriores de Google Genie que allanaron el camino para Genie 3:
-
Genie 1: Genie 1, al que a menudo se le llama simplemente Google Genie, fue el primer modelo de mundo de IA de Google DeepMind capaz de crear entornos virtuales interactivos. Los usuarios podían describir un mundo con texto, imágenes, fotos o incluso bocetos, y Genie lo generaba, permitiéndoles controlar acciones dentro de la escena. Fue diseñado para procesar datos de vídeo a lo largo del tiempo, predecir el siguiente fotograma y traducir las entradas del usuario en acciones dentro del mundo.
-
Genie 2: Aprovechando las capacidades de Google Genie, Genie 2 podía crear una amplia gama de mundos 3D detallados e interactivos. Como modelo de mundo, simulaba entornos virtuales y respondía de forma realista a acciones como saltar, nadar o mover objetos. Entrenado con una enorme colección de vídeos, presentaba interacciones realistas con objetos y movimientos de personajes muy naturales.
Link to this section¿Qué es Genie 3? El nuevo modelo de IA de Google#
Partiendo de los modelos Genie anteriores, Genie 3 es el más reciente y avanzado de la serie. Se basa especialmente en Genie 2, que podía generar nuevos entornos virtuales, y en Veo 3, el último modelo de generación de vídeo de Google DeepMind. Veo 3 demuestra una profunda comprensión de la física y de cómo interactúan los objetos en el mundo real.
Mientras que Veo 3 utiliza un motor de física preprogramado, Google Genie 3 aprende cómo funciona la física utilizando un método conocido como aprendizaje autosupervisado. Es una técnica de aprendizaje de IA en la que un modelo de IA aprende patrones y relaciones a partir de datos no etiquetados generando sus propias señales de aprendizaje.
La capacidad de aprendizaje autosupervisado de Google Genie 3 es crucial para entrenar sistemas de IA, como agentes de IA o robots con IA, para manejar diversas tareas. De hecho, los investigadores de Google DeepMind ven a Genie 3 como un paso importante hacia la creación de Inteligencia Artificial General (AGI).

Fig 2. Un ejemplo del uso de Google Genie 3 para simular el control de un vehículo robótico. (Fuente)
La AGI es una forma teórica de IA que puede comprender y aprender cualquier tarea o materia y aplicar ese conocimiento en diferentes situaciones, al igual que un humano. A diferencia de los modelos de inteligencia artificial actuales, que están diseñados para tareas específicas y tienen dificultades para transferir sus habilidades a nuevos problemas, la AGI sería capaz de adaptarse y aprender en una amplia gama de contextos.
Link to this sectionCaracterísticas clave de Google Genie 3 relacionadas con la construcción de un mundo de IA#
Aquí tienes algunas de las características clave que admite Genie 3:
-
Generación de mundos de texto a 3D: Puede convertir una simple instrucción de texto (por ejemplo, "un robot caminando por la calle") en un entorno similar a 3D jugable con controles de movimiento básicos.
-
Eventos del mundo mediante prompts: Los usuarios pueden cambiar dinámicamente el entorno escribiendo nuevos comandos (por ejemplo, añadir lluvia a la calle).
-
Memoria visual: Genie 3 puede recordar objetos que se dejaron atrás en el entorno y permitirte volver a verlos más tarde, durante aproximadamente un minuto.
-
Salida de vídeo fluida y consistente: Puede mantener una salida de vídeo de 24 fps (fotogramas por segundo) a una resolución de 720p, con una interacción más larga en comparación con Genie 2.

Fig 3. Google Genie 3 puede generar salidas que duran más que las producidas por Genie 2. (Fuente)
Link to this sectionDe la educación a los videojuegos: Aplicaciones de Genie 3 de Google DeepMind#
Google Genie 3 puede hacer que el aprendizaje, la investigación y la formación sean más inmersivos y atractivos. Por ejemplo, en las aulas, puede dar vida a la historia, la ciencia o la geografía permitiendo a los estudiantes explorar ciudades antiguas o viajar por el espacio. Del mismo modo, para los desarrolladores de inteligencia artificial, ofrece mundos virtuales realistas para practicar estrategias, superar desafíos y mejorar las habilidades de toma de decisiones.
Los científicos también pueden utilizarlo para crear simulaciones controladas para probar ideas, estudiar ecosistemas u observar el comportamiento de los objetos. Otra aplicación interesante es el desarrollo de videojuegos. Los desarrolladores de juegos pueden convertir instrucciones de texto en mundos de juego detallados, acelerando el desarrollo y reduciendo la necesidad de contar con grandes equipos.

Fig 4. Se pueden diseñar juegos divertidos, coloridos e interactivos usando Genie 3. (Fuente)
Link to this sectionLimitaciones de Google Genie 3 como modelo de mundo#
Aunque Google Genie 3 ofrece muchas funciones y ventajas, también es importante considerar sus inconvenientes.
Aquí tienes algunas limitaciones a tener en cuenta:
-
Rango de acción limitado: Aunque puedes activar muchos eventos en el mundo virtual, no todos son llevados a cabo por el agente mismo. Las acciones que un agente puede realizar directamente siguen siendo limitadas.
-
Interactuar con otros agentes: Crear interacciones realistas entre múltiples agentes independientes en el mismo entorno sigue siendo un trabajo en curso.
-
Precisión en el mundo real: Google Genie 3 aún no puede recrear ubicaciones del mundo real con una precisión geográfica perfecta.
Link to this sectionConclusiones clave#
Google Genie 3 representa un avance significativo en la creación de mundos 3D realistas e interactivos con IA. Puede dar vida a ideas a partir de simples instrucciones de texto, simular la física e incluso entrenar sistemas de IA en espacios virtuales seguros.
Aunque todavía tiene límites, abre muchas posibilidades para la investigación, los juegos y el desarrollo de IA. También es un paso crucial hacia sistemas de AGI que puedan pensar y aprender más como los humanos.
Echa un vistazo a nuestro repositorio de GitHub para descubrir más sobre la IA. Únete a nuestra activa comunidad y descubre innovaciones en sectores como la IA en el comercio minorista y la IA de visión en la fabricación. Para empezar con la visión por ordenador hoy mismo, consulta nuestras opciones de licencia.






