Los modelos Gemini Robotics de Google impulsan robots más inteligentes

Abirami Vina

4 min leer

4 de abril de 2025

Descubra cómo Google Gemini Robotics mejora los robots dotados de IA con inteligencia multimodal, potenciando la adaptabilidad, la destreza y la interacción humana sin fisuras.

Durante décadas, los robots han simbolizado el futuro, apareciendo en laboratorios de investigación, películas de ciencia ficción y escaparates de prototipos industriales de vanguardia. Ahora, gracias a los recientes avances en inteligencia artificial (IA), estos prototipos están saliendo de los entornos controlados para convertirse en aplicaciones del mundo real. 

En concreto, con Gemini Robotics, Google da un paso más hacia la tecnología necesaria para construir robots más inteligentes. Lanzados el 12 de marzo de 2025, el modelo Gemini Robotics y su modelo complementario, Gemini Robotics-ER (Embodied Reasoning), son las últimas innovaciones de Google DeepMind. 

Se basan en Gemini 2.0, un Large Language Model (LLM) multimodal capaz de procesar y generar diversos tipos de datos, como texto, imágenes, audio y vídeo, facilitando interacciones más versátiles y naturales. Estos modelos trasladan las capacidades multimodales de Gemini 2.0 al mundo físico, permitiendo robots más diestros, interactivos e inteligentes.

Por ejemplo, a diferencia de los robots tradicionales, que siguen instrucciones fijas, los robots integrados con modelos de Gemini Robotics pueden procesar la visión y el lenguaje. Esto les permite tomar decisiones en tiempo real y adaptarse a entornos cambiantes.

En este artículo, exploraremos Gemini Robotics y Gemini Robotics-ER, cómo funcionan estos modelos y sus principales características y aplicaciones. Empecemos.

__wf_reserved_inherit
Fig. 1. Gemini Robotics ayuda a los robots a realizar múltiples tareas con eficacia.

Presentación de Google Gemini Robotics

Gemini Robotics de Google es un modelo avanzado de IA diseñado para dotar a los robots de la capacidad de percibir, razonar e interactuar en el mundo físico. Como modelo de visión-lenguaje-acción (VLA), permite a los robots procesar instrucciones, interpretar su entorno y ejecutar tareas complejas con gran precisión.

Por su parte, el modelo Gemini Robotics-ER mejora la capacidad de un robot para comprender las relaciones espaciales de cómo están colocados los objetos, cómo se mueven y cómo interactúan. Esto ayuda a los robots a anticipar acciones y ajustar sus movimientos en consecuencia. 

Por ejemplo, consideremos una tarea en la que un robot tiene que enrollar un cable alrededor de unos auriculares. Gemini Robotics-ER le ayuda a comprender la escena, reconocer la forma y flexibilidad del cable, identificar la estructura de los auriculares y predecir cómo se doblará el cable al moverse. A continuación, Gemini Robotics traduce esta comprensión en acción, coordinando ambas manos para manipular el cable con suavidad, ajustando su agarre para evitar enredos y garantizando una envoltura segura.

Combinando la percepción con la acción, Gemini Robotics y Gemini Robotics-ER crean un sistema inteligente que permite a los robots realizar con eficacia tareas de destreza en entornos dinámicos.

__wf_reserved_inherit
Fig. 2. Visión general de la familia de modelos de Gemini Robotics.

La IA en la robótica: Explorando el funcionamiento de Gemini Robotics

A continuación, echemos un vistazo más de cerca a cada modelo para comprender mejor cómo Gemini Robotics y Gemini Robotics-ER trabajan juntos para equilibrar la flexibilidad y las acciones rápidas. 

Por un lado, Gemini Robotics-ER aprovecha dos mecanismos clave: la generación de código de disparo cero y el aprendizaje en contexto (ICL) de pocos disparos. Con la generación de código sin disparos, el modelo puede crear código para controlar el robot a partir de instrucciones de tareas, imágenes y datos en tiempo real sin necesidad de formación adicional. 

Del mismo modo, con el aprendizaje de pocos disparos, el modelo se adapta a nuevas tareas aprendiendo de unos pocos ejemplos, lo que reduce la necesidad de un entrenamiento exhaustivo. Juntos, estos métodos permiten al robot realizar tareas complejas con rapidez y adaptarse a nuevos retos con el mínimo esfuerzo.

Gemini Robotics, por su parte, está diseñado para ser rápido y eficaz. Utiliza un sistema híbrido compuesto por una red troncal basada en la nube y un descodificador de acciones integrado. El backbone basado en la nube procesa la información rápidamente, con una latencia de consulta a respuesta inferior a 160 milisegundos. 

A continuación, el descodificador integrado ayuda a traducir estos datos en acciones en tiempo real. Este sistema combinado logra un tiempo de respuesta global de aproximadamente 250 milisegundos, con una velocidad de control de 50 acciones por segundo.

__wf_reserved_inherit
Fig. 3. Comprensión de cómo Gemini Robotics soporta el control de robots en tiempo real.

Capacidades clave de Gemini Robotics 

He aquí un rápido vistazo a las principales características de Gemini Robotics:

  • Generalidad: Puede adaptarse a los cambios de iluminación, fondos y objetos sin perder precisión. También entiende órdenes parafraseadas o multilingües y puede ajustar los movimientos a las distintas condiciones.

  • Interactividad: Este modelo puede procesar una amplia gama de órdenes en lenguaje natural y responder de forma intuitiva. También ajusta sus acciones en función de los cambios del entorno en tiempo real, lo que lo hace ideal para la colaboración entre humanos y robots.

  • Destreza: Un robot impulsado por este modelo puede realizar tareas complejas y precisas, como plegar origami o manipular objetos delicados. Tanto si se trata de un proceso paso a paso como de acciones rápidas, el modelo puede ayudar a ejecutarlas con eficacia.
  • Múltiples encarnaciones: Funciona en varias plataformas robóticas, como sistemas de dos brazos y robots humanoides, con pocos ajustes. Se adapta rápidamente a nuevas tareas manteniendo un alto rendimiento.
__wf_reserved_inherit
Fig. 4. Google Gemini Robotics trabaja con varias plataformas robóticas.

Capacidades clave de Gemini Robotics - ER

He aquí algunas de las principales características de Gemini Robotics-ER que ayudan a los robots a comprender el mundo e interactuar con él:

  • Detección y seguimiento y seguimiento de objetos: Puede utilizarse para identificar y rastrear objetos tanto en espacios 2D como 3D. Mediante consultas en lenguaje natural, ayuda a los robots a encontrar objetos y predecir su posición, ya sea por tipo, ubicación o función.

  • Señalar: Esta función permite al modelo señalar objetos o partes específicas dentro de una imagen utilizando coordenadas precisas. Puede utilizarse para ayudar a los robots a localizar objetos enteros, partes de objetos o incluso espacios vacíos.
  • Predicción del agarre: Gemini Robotics-ER puede utilizarse para determinar la mejor manera de agarrar objetos basándose en su forma y función. Predice dónde agarrar, ya sea un plátano o el asa de una taza, lo que permite a los robots manipular los objetos con cuidado.

  • Razonamiento de trayectorias: El modelo puede utilizarse para planificar trayectorias de movimiento mediante la predicción de secuencias de acciones. Por ejemplo, puede guiar una mano robótica hacia una herramienta o definir puntos de ruta para una tarea específica, ayudando al robot a completar tareas de forma eficiente.

  • Correspondencia multivista: Esta función ayuda al modelo a comprender estructuras tridimensionales comparando cómo aparecen los objetos desde distintos ángulos. Puede utilizarse para mejorar el razonamiento espacial, permitiendo a los robots interactuar mejor con los objetos en entornos dinámicos.
__wf_reserved_inherit
Fig. 5. Gemini Robotics-ER puede realizar una gran variedad de tareas.

Aplicaciones de los modelos de Google Gemini Robotics

Ahora que ya hemos hablado de las capacidades clave de Gemini Robotics y Gemini Robotics-ER, vamos a sumergirnos en sus aplicaciones reales en diversos sectores.

Google Gemini Robotics puede utilizarse en la fabricación

Cuando se trata de fabricación, la precisión y la velocidad son importantes, pero la adaptabilidad es lo que realmente hace que todo funcione sin problemas. Por ejemplo, un robot industrial accionado por Gemini puede montar un sistema de poleas identificando los componentes adecuados, colocándolos correctamente y manipulando una banda elástica flexible con una fuerza precisa. 

Puede estirar la banda, enrollarla alrededor de las poleas y fijarla sin que se rompa ni se desalinee. Si la configuración cambia o la tarea varía, el robot puede adaptarse sin necesidad de una reprogramación exhaustiva. Esta automatización inteligente reduce los errores, mejora la eficacia y mantiene el buen funcionamiento de los procesos de fabricación.

__wf_reserved_inherit
Fig. 6. Un robot industrial de dos brazos ajusta con precisión una goma elástica a un sistema de poleas.

Hogares inteligentes habilitados por Gemini Robotics

Las agendas apretadas pueden dificultar las tareas domésticas. Los robots inteligentes pueden encargarse de tareas como la limpieza, la clasificación de la compra e incluso ayudar a preparar la comida, facilitando así la vida diaria

Por ejemplo, un robot que prepara una bolsa de comida, seleccionando y colocando cuidadosamente los alimentos en su interior y ajustando su agarre para proteger objetos frágiles como fruta o latas. Incluso si la disposición cambia, el robot puede adaptarse por sí solo, facilitando las tareas diarias con una supervisión mínima.

__wf_reserved_inherit
Fig. 7. Un robot humanoide empaquetando cuidadosamente una bolsa de almuerzo.

Ventajas e inconvenientes de aprovechar Gemini Robotics 

Gemini Robotics está ampliando lo que pueden hacer los robots, desde la fabricación precisa hasta la asistencia doméstica inteligente. Estas son algunas de las principales ventajas de utilizar Gemini Robotics en diversas aplicaciones: 

  • Mínimo formación de formación: A diferencia de los robots tradicionales, los robots impulsados por Gemini Robotics pueden aprender a partir de unas pocas demostraciones, lo que reduce los costes de formación y facilita su despliegue.

  • Mayor seguridad: En entornos peligrosos, los robots integrados con Gemini Robotics pueden realizar tareas peligrosas, reduciendo el riesgo de lesiones para los trabajadores humanos.
  • Funciones personalizables: La flexibilidad de Gemini Robotics significa que puede adaptarse para satisfacer las necesidades específicas de diferentes industrias o empresas individuales, lo que permite aplicaciones especializadas y soluciones únicas.

Aunque Gemini Robotics ofrece varias ventajas, también es importante tener en cuenta las siguientes limitaciones:

  • Problemas con las relaciones espaciales: Estos modelos pueden tener dificultades para seguir las relaciones espaciales en secuencias de vídeo largas, lo que afecta a su capacidad para seguir y comprender objetos a lo largo del tiempo.
  • Falta de precisión numérica: Las predicciones del modelo, como puntos y cuadros delimitadores, pueden no ser lo suficientemente precisas para tareas que requieren un control fino, como las tareas robóticas delicadas.
  • Tareas complejas: Gemini Robotics puede tener dificultades para manejar tareas complejas que requieran razonamientos de varios pasos y movimientos precisos, especialmente en situaciones nuevas o desconocidas. 

El futuro de la IA en la robótica

A medida que la IA sigue avanzando, modelos como Gemini Robotics y Gemini Robotics-ER impulsan el futuro de la robótica. Las mejoras futuras se centrarán probablemente en potenciar el razonamiento multipaso, permitiendo a los robots dividir las tareas en pasos lógicos para lograr una mayor precisión.

Otra área clave de desarrollo en la que Google DeepMind tiene previsto trabajar es el entrenamiento basado en simulación. Al aprender en entornos virtuales antes de su despliegue en el mundo real, los robots pueden perfeccionar su toma de decisiones y sus movimientos, minimizando los errores en las aplicaciones prácticas.

A medida que estas tecnologías evolucionen, podrían allanar el camino hacia un futuro en el que los robots sean más autónomos, adaptables y capaces de trabajar sin problemas junto a los humanos en la vida cotidiana.

Principales conclusiones

Gemini Robotics es un gran paso adelante en la automatización impulsada por la IA, que conecta la inteligencia digital con las tareas físicas del mundo real. Combinando visión, lenguaje y aprendizaje basado en la acción, estos robots pueden realizar tareas complejas con precisión y adaptabilidad. 

A medida que los robots sigan haciéndose más inteligentes, es probable que desempeñen un papel más importante en la vida cotidiana, cambiando la forma en que los humanos y las máquinas trabajan juntos. Este progreso nos acerca a un mundo inteligente y más conectado en el que la automatización impulsada por la IA mejora tanto las industrias como las tareas cotidianas.

Forme parte de nuestra creciente comunidad. Visite nuestro repositorio de GitHub para profundizar en la IA. ¿Desea iniciar sus propios proyectos de visión por ordenador? Eche un vistazo a nuestras opciones de licencia. Obtenga más información sobre la IA en la fabricación y la IA de visión en el sector de la automoción en nuestras páginas de soluciones.

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles