Google Genie 3 da vida a tu mundo 3D con IA

Abirami Vina

4 min leer

15 de agosto de 2025

El modelo Genie 3 de DeepMind convierte mensajes de texto o imágenes en entornos tridimensionales. Este avance supone un paso más hacia una inteligencia similar a la humana.

El 5 de agosto de 2025, Google DeepMind lanzó su última versión del modelo Genie, conocida como Genie 3. Se trata de un nuevo modelo de IA que puede convertir las indicaciones de texto de un usuario en entornos dinámicos e interactivos. 

Estos entornos, o mundos de IA, permiten al usuario navegar e interactuar con ellos en tiempo real, como en un videojuego. Los usuarios también pueden ampliar o modificar el entorno mediante indicaciones de texto adicionales, lo que permite realizar cambios sobre la marcha sin reiniciar la simulación. 

Lo que hace que el último modelo Genie de Google sea especialmente impactante es que puede utilizarse para entrenar agentes de IA. Esto implica enseñar a los agentes de IA a tomar decisiones o realizar tareas utilizando datos y retroalimentación. Al utilizar un entorno 3D simulado en lugar del mundo real, los investigadores pueden evitar muchos de los retos, costes y riesgos del entrenamiento en el mundo real.

Google Genie 3 también puede simular escenarios complejos, como probar un coche autónomo conduciendo en condiciones meteorológicas adversas o un traje de alas planeando por terreno montañoso. 

En este artículo, exploraremos Google Genie 3 y sus capacidades. Comencemos.

Fig. 1. Fotograma de una simulación Genie 3 que muestra el planeo de un traje de alas.(Fuente)

Breve historia de los modelos Genie de Google

Antes de sumergirnos en los modelos Genie de Google DeepMind, entendamos mejor qué son los modelos mundiales. 

Los modelos del mundo son sistemas de IA que aprenden reglas del mundo real como la física, el movimiento y las relaciones espaciales a partir de textos, imágenes, vídeos y conjuntos de datos de movimiento. Esto les permite crear escenas realistas y predecir cómo evolucionan. Los modelos Genie son ejemplos de este tipo de sistemas.

He aquí un rápido vistazo a los anteriores modelos de Google Genie que allanaron el camino para Genie 3:

  • Genie 1: Genie 1, a menudo conocido simplemente como Google Genie, fue el primer modelo de mundo de IA de Google DeepMind capaz de crear entornos virtuales interactivos. Los usuarios podían describir un mundo con texto, imágenes, fotos o incluso bocetos, y Genie lo generaba, permitiéndoles controlar acciones dentro de la escena. Se diseñó para procesar datos de vídeo a lo largo del tiempo, predecir el siguiente fotograma y traducir las entradas del usuario en acciones dentro del mundo.
  • Genie 2: Basándose en las capacidades de Google Genie, Genie 2 podía crear una amplia gama de mundos 3D detallados e interactivos. Como modelo de mundo, simulaba entornos virtuales y respondía con realismo a acciones como saltar, nadar o mover objetos. Entrenado con una enorme colección de vídeos, presentaba interacciones realistas con los objetos y movimientos de personajes realistas.

¿Qué es Genie 3? El nuevo modelo de IA de Google

Basado en modelos Genie anteriores, Genie 3 es el último y más avanzado de la serie. Se basa especialmente en Genie 2, que podía generar nuevos entornos virtuales, y en Veo 3, el último modelo de generación de vídeo de Google DeepMind. Veo 3 demuestra un profundo conocimiento de la física y de cómo interactúan los objetos en el mundo real.

Mientras que Veo 3 utiliza un motor de física codificado, Google Genie 3 se enseña a sí mismo cómo funciona la física utilizando un método conocido como aprendizaje autosupervisado. Se trata de una técnica de aprendizaje en la que un modelo de IA aprende patrones y relaciones a partir de datos no etiquetados generando sus propias señales de aprendizaje. 

La capacidad de aprendizaje autosupervisado de Google Genie 3 es crucial para entrenar sistemas de IA, como agentes o robots de IA, para que realicen diversas tareas. De hecho, los investigadores de Google DeepMind ven Genie 3 como un paso importante hacia la creación de la Inteligencia Artificial General (IAG)

Fig. 2. Ejemplo de uso de Google Genie 3 para simular el control de un robot explorador.(Fuente)

La AGI es una forma teórica de inteligencia artificial capaz de comprender y aprender cualquier tarea o tema y aplicar ese conocimiento a distintas situaciones, como un ser humano. A diferencia de los modelos de inteligencia artificial actuales, que se construyen para tareas específicas y tienen dificultades para transferir sus habilidades a nuevos problemas, la AGI sería capaz de adaptarse y aprender en una amplia gama de contextos.

Principales características de Google Genie 3 relacionadas con la construcción de un mundo de IA

Éstas son algunas de las principales características de Genie 3:

  • Generación de mundos de texto a 3D: Puede convertir un simple texto (por ejemplo, "un robot caminando por la calle") en un entorno tridimensional jugable con controles de movimiento básicos.
  • Acontecimientos del mundo programables: Los usuarios pueden cambiar dinámicamente el entorno escribiendo nuevos comandos (por ejemplo, añadir lluvia a la calle).
  • Memoria visual: Genie 3 puede recordar objetos dejados en el entorno y permitirte volver a verlos más tarde, con una duración aproximada de un minuto.
  • Salida de vídeo suave y consistente: Puede mantener una salida de vídeo de 24 fps (fotogramas por segundo) a una resolución de 720p, con una mayor duración en comparación con Genie 2.
Fig. 3. Google Genie 3 puede generar resultados más duraderos que los producidos por Genie 2.(Fuente)

De la educación al juego: Aplicaciones del Genie 3 de Google DeepMind

Google Genie 3 puede hacer que el aprendizaje, la investigación y la formación sean más inmersivos y atractivos. Por ejemplo, en las aulas, puede dar vida a la historia, la ciencia o la geografía permitiendo a los alumnos explorar ciudades antiguas o viajar por el espacio. Del mismo modo, para los desarrolladores de inteligencia artificial, ofrece mundos virtuales realistas para practicar estrategias, superar retos y mejorar la capacidad de toma de decisiones.

Los científicos también pueden utilizarlo para crear simulaciones controladas con las que probar ideas, estudiar ecosistemas u observar el comportamiento de objetos. Otra aplicación interesante es el desarrollo de videojuegos. Los desarrolladores de juegos pueden convertir mensajes de texto en mundos de juego detallados, lo que acelera el desarrollo y reduce la necesidad de grandes equipos.

Fig. 4. Con Genie 3 se pueden diseñar juegos divertidos, coloridos e interactivos.(Fuente)

Limitaciones de Google Genie 3 como modelo mundial

Aunque Google Genie 3 ofrece muchas funciones y ventajas, también es importante tener en cuenta sus inconvenientes. 

He aquí algunas limitaciones a tener en cuenta:

  • Alcance limitado de las acciones: Aunque se pueden desencadenar muchos eventos en el mundo virtual, no todos los lleva a cabo el propio agente. Las acciones que un agente puede realizar directamente siguen siendo limitadas.
  • Interacción con otros agentes: La creación de interacciones realistas entre varios agentes independientes en un mismo entorno sigue siendo una tarea pendiente.
  • Precisión del mundo real: Google Genie 3 aún no puede recrear ubicaciones del mundo real con una precisión geográfica perfecta.

Principales conclusiones

Google Genie 3 representa un avance significativo en la creación de mundos 3D realistas e interactivos con IA. Puede dar vida a ideas a partir de simples mensajes de texto, simular la física e incluso entrenar sistemas de IA en espacios virtuales seguros. 

Aunque todavía tiene límites, abre muchas posibilidades para la investigación, los juegos y el desarrollo de la IA. También es un paso crucial hacia sistemas de inteligencia artificial que puedan pensar y aprender más como los humanos.

Eche un vistazo a nuestro repositorio de GitHub para descubrir más cosas sobre la IA. Únase a nuestra activa comunidad y descubra innovaciones en sectores como la IA en la industria minorista y la IA de visión en la fabricación. Para empezar hoy mismo con la visión por computador, consulte nuestras opciones de licencia.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles