¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Google Genie 3 da vida a tu mundo 3D con IA

Abirami Vina

4 minutos de lectura

15 de agosto de 2025

El modelo mundial de IA Genie 3 de DeepMind convierte texto o indicaciones de imagen en entornos 3D. Este avance marca otro paso hacia la inteligencia similar a la humana.

El 5 de agosto de 2025, Google DeepMind lanzó su última versión del modelo Genie, conocida como Genie 3. Se trata de un nuevo modelo de IA que puede convertir las indicaciones de texto de un usuario en entornos dinámicos e interactivos. 

Estos entornos, o mundos de IA, permiten al usuario navegar e interactuar con ellos en tiempo real, de forma muy parecida a un videojuego. Los usuarios también pueden ampliar o modificar el entorno proporcionando indicaciones de texto adicionales, lo que permite realizar cambios sobre la marcha sin reiniciar la simulación. 

Lo que hace que el último modelo Genie de Google sea particularmente impactante es que se puede utilizar para entrenar agentes de IA. Esto implica enseñar a los agentes de IA a tomar decisiones o realizar tareas utilizando datos y retroalimentación. Al utilizar un entorno 3D simulado en lugar del mundo real, los investigadores pueden evitar muchos de los desafíos, costos y riesgos del entrenamiento en el mundo real.

Google Genie 3 también puede simular escenarios complejos, como probar un coche autónomo conduciendo en condiciones climáticas adversas o un traje aéreo planeando a través de terrenos montañosos. 

En este artículo, exploraremos Google Genie 3 y sus capacidades. ¡Empecemos!

Fig 1. Un fotograma de una simulación de Genie 3 que muestra a un traje de alas planeando. (Fuente)

Una breve historia de los modelos Genie de Google

Antes de sumergirnos en los modelos Genie de Google DeepMind, comprendamos mejor qué son los modelos mundiales. 

Los modelos del mundo son sistemas de IA que aprenden reglas del mundo real como la física, el movimiento y las relaciones espaciales a partir de texto, imágenes, vídeos y conjuntos de datos de movimiento. Esto les permite crear escenas realistas y predecir cómo evolucionan. Los modelos Genie son ejemplos de tales sistemas.

Aquí hay un vistazo rápido a los modelos Google Genie anteriores que allanaron el camino para Genie 3:

  • Genie 1: Genie 1, a menudo conocido simplemente como Google Genie, fue el primer modelo mundial de IA de Google DeepMind capaz de crear entornos virtuales interactivos. Los usuarios podían describir un mundo con texto, imágenes, fotos o incluso bocetos, y Genie lo generaba, permitiéndoles controlar las acciones dentro de la escena. Fue diseñado para procesar datos de video a lo largo del tiempo, predecir el siguiente fotograma y traducir las entradas del usuario en acciones dentro del mundo.
  • Genie 2: Basándose en las capacidades de Google Genie, Genie 2 podía crear una amplia gama de mundos 3D interactivos y detallados. Como modelo mundial, simulaba entornos virtuales y respondía de forma realista a acciones como saltar, nadar o mover objetos. Entrenado con una colección masiva de videos, presentaba interacciones realistas de objetos y movimientos de personajes realistas.

¿Qué es Genie 3? El nuevo modelo de IA de Google

Basado en los modelos Genie anteriores, Genie 3 es el último y más avanzado de la serie. Se basa particularmente en Genie 2, que podía generar nuevos entornos virtuales, y Veo 3, el último modelo de generación de video de Google DeepMind. Veo 3 demuestra una comprensión profunda de la física y de cómo interactúan los objetos en el mundo real.

Mientras que Veo 3 utiliza un motor de física codificado, Google Genie 3 se enseña a sí mismo cómo funciona la física utilizando un método conocido como aprendizaje auto-supervisado. Es una técnica de aprendizaje de IA donde un modelo de IA aprende patrones y relaciones de datos no etiquetados generando sus propias señales de aprendizaje. 

La capacidad de aprendizaje autosupervisado de Google Genie 3 es crucial para entrenar sistemas de IA, como agentes de IA o robots de IA, para manejar diversas tareas. De hecho, los investigadores de Google DeepMind ven a Genie 3 como un paso importante hacia la creación de la Inteligencia Artificial General (IAG)

Fig. 2. Un ejemplo del uso de Google Genie 3 para simular el control de un rover robótico. (Fuente)

La AGI es una forma teórica de IA que puede comprender y aprender cualquier tarea o tema, y aplicar ese conocimiento en diferentes situaciones, de forma muy similar a un humano. A diferencia de los modelos de inteligencia artificial actuales, que están diseñados para tareas específicas y tienen dificultades para transferir sus habilidades a nuevos problemas, la AGI sería capaz de adaptarse y aprender en una amplia gama de contextos.

Características clave de Google Genie 3 relacionadas con la construcción de un mundo de IA

Estas son algunas de las características clave compatibles con Genie 3:

  • Generación de mundos 3D a partir de texto: Puede convertir una simple instrucción de texto (por ejemplo, "un robot caminando por la calle") en un entorno jugable similar al 3D con controles de movimiento básicos.
  • Eventos mundiales basados en prompts: Los usuarios pueden cambiar dinámicamente el entorno escribiendo nuevos comandos (por ejemplo, añadir lluvia a la calle).
  • Memoria visual: Genie 3 puede recordar objetos dejados atrás en el entorno y permitirte volver a visitarlos más tarde, durante aproximadamente un minuto.
  • Salida de vídeo fluida y consistente: Puede mantener una salida de vídeo de 24 fps (fotogramas por segundo) a una resolución de 720p, con una participación más prolongada en comparación con Genie 2.
Fig. 3. Google Genie 3 puede generar resultados que duran más que los producidos por Genie 2. (Fuente)

Educación a videojuegos: Aplicaciones de Genie 3 de Google DeepMind

Google Genie 3 puede hacer que el aprendizaje, la investigación y la formación sean más inmersivos y atractivos. Por ejemplo, en las aulas, puede dar vida a la historia, la ciencia o la geografía permitiendo a los estudiantes explorar ciudades antiguas o viajar por el espacio. Del mismo modo, para los desarrolladores de inteligencia artificial, ofrece mundos virtuales realistas para practicar estrategias, superar desafíos y mejorar las habilidades de toma de decisiones.

Los científicos también pueden utilizarla para crear simulaciones controladas para probar ideas, estudiar ecosistemas u observar el comportamiento de los objetos. Otra aplicación interesante es en el desarrollo de videojuegos. Los desarrolladores de juegos pueden convertir indicaciones de texto en mundos de juego detallados, acelerando el desarrollo y reduciendo la necesidad de grandes equipos.

Fig. 4. Se pueden diseñar juegos divertidos, coloridos e interactivos utilizando Genie 3. (Fuente)

Limitaciones de Google Genie 3 como modelo mundial

Si bien Google Genie 3 ofrece muchas características y beneficios, también es importante considerar sus inconvenientes. 

Estas son algunas limitaciones a tener en cuenta:

  • Rango de acción limitado: Si bien puedes activar muchos eventos en el mundo virtual, no todos son llevados a cabo por el propio agente. Las acciones que un agente puede realizar directamente siguen siendo limitadas.
  • Interacción con otros agentes: La creación de interacciones realistas entre múltiples agentes independientes en el mismo entorno sigue siendo un trabajo en curso.
  • Precisión en el mundo real: Google Genie 3 aún no puede recrear ubicaciones del mundo real con una precisión geográfica perfecta.

Conclusiones clave

Google Genie 3 representa un avance significativo en la creación de mundos 3D realistas e interactivos con IA. Puede dar vida a ideas a partir de simples indicaciones de texto, simular la física e incluso entrenar sistemas de IA en espacios virtuales seguros. 

Si bien todavía tiene límites, abre muchas posibilidades para la investigación, los juegos y el desarrollo de la IA. También es un paso crucial hacia los sistemas AGI que pueden pensar y aprender más como los humanos.

Visita nuestro repositorio de GitHub para descubrir más sobre la IA. Únete a nuestra activa comunidad y descubre innovaciones en sectores como la IA en el sector minorista y la IA de visión en la fabricación. Para empezar hoy mismo con la visión artificial, consulta nuestras opciones de licencia.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Comienza gratis
Enlace copiado al portapapeles