Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
IA de visión

Los modelos de Google Gemini Robotics están potenciando robots más inteligentes

Explora cómo Google Gemini Robotics mejora los robots impulsados por IA con inteligencia multimodal, aumentando la adaptabilidad, la destreza y la interacción humana fluida.

ABAbirami Vina
4 min read
Modelos de Google Gemini Robotics potenciando robots más inteligentes

Durante décadas, los robots han sido un símbolo del futuro, apareciendo en laboratorios de investigación, películas de ciencia ficción y escaparates de prototipos industriales de vanguardia. Ahora, gracias a los recientes avances en inteligencia artificial (IA), estos prototipos están superando los entornos controlados para integrarse en aplicaciones del mundo real.

Concretamente, con Gemini Robotics, Google se acerca un paso más a la tecnología necesaria para construir robots más inteligentes. Lanzados el 12 de marzo de 2025, el modelo Gemini Robotics y su modelo complementario, Gemini Robotics-ER (Embodied Reasoning), son las últimas innovaciones de Google DeepMind.

Están basados en Gemini 2.0, un modelo de lenguaje extenso (LLM) multimodal capaz de procesar y generar diversos tipos de datos, incluidos texto, imágenes, audio y vídeo, lo que facilita interacciones más versátiles y naturales. Estos modelos trasladan las capacidades multimodales de Gemini 2.0 al mundo físico, permitiendo robots más hábiles, interactivos e inteligentes.

Por ejemplo, a diferencia de los robots tradicionales que siguen instrucciones fijas, los robots integrados con modelos de Gemini Robotics pueden procesar visión y lenguaje. Esto les permite tomar decisiones en tiempo real y adaptarse a entornos cambiantes.

En este artículo, exploraremos Gemini Robotics y Gemini Robotics-ER, cómo funcionan estos modelos y cuáles son sus características y aplicaciones clave. ¡Empecemos!

Gemini Robotics ayudando a robots a realizar múltiples tareas de manera eficiente

Fig 1. Gemini Robotics ayuda a los robots a realizar múltiples tareas de manera eficiente.

Link to this sectionPresentación de Google Gemini Robotics#

Google Gemini Robotics es un modelo de IA avanzado diseñado para dotar a los robots de la capacidad de percibir, razonar e interactuar en el mundo físico. Como modelo de visión-lenguaje-acción (VLA), permite a los robots procesar instrucciones, interpretar su entorno y ejecutar tareas complejas con una gran precisión.

Por otro lado, el modelo Gemini Robotics-ER mejora la capacidad del robot para comprender las relaciones espaciales de cómo están posicionados los objetos, cómo se mueven y cómo interactúan. Esto ayuda a los robots a anticipar acciones y ajustar sus movimientos en consecuencia.

Por ejemplo, considera una tarea en la que un robot debe enrollar un cable alrededor de unos auriculares. Gemini Robotics-ER le ayuda a comprender la escena, reconocer la forma y flexibilidad del cable, identificar la estructura de los auriculares y predecir cómo se doblará el cable mientras se mueve. Después, Gemini Robotics traduce esta comprensión en acción, coordinando ambas manos para manipular el cable con suavidad, ajustando su agarre para evitar enredos y asegurando un enrollado firme.

Al combinar la percepción con la acción, Gemini Robotics y Gemini Robotics-ER crean un sistema inteligente que permite a los robots realizar tareas diestras de manera eficiente en entornos dinámicos.

Una descripción general de la familia de modelos Gemini Robotics

Fig 2. Una visión general de la familia de modelos Gemini Robotics.

Link to this sectionIA en robótica: explorando cómo funciona Gemini Robotics#

A continuación, echemos un vistazo más de cerca a cada modelo para entender mejor cómo Gemini Robotics y Gemini Robotics-ER trabajan juntos para equilibrar flexibilidad y acciones rápidas.

Por un lado, Gemini Robotics-ER aprovecha dos mecanismos clave: la generación de código zero-shot y el aprendizaje en contexto (ICL) few-shot. Con la generación de código zero-shot, el modelo puede crear código para controlar el robot basándose en instrucciones de tareas, imágenes y datos en tiempo real sin necesidad de entrenamiento adicional.

Del mismo modo, con el aprendizaje few-shot, el modelo se adapta a nuevas tareas aprendiendo de solo unos pocos ejemplos, lo que reduce la necesidad de un entrenamiento extensivo. Juntos, estos métodos permiten al robot realizar tareas complejas rápidamente y adaptarse a nuevos desafíos con un esfuerzo mínimo.

Gemini Robotics, por otro lado, está diseñado para la velocidad y la eficiencia. Utiliza un sistema híbrido que consiste en una infraestructura basada en la nube y un decodificador de acciones integrado. La infraestructura en la nube procesa la información rápidamente, con una latencia de consulta a respuesta inferior a 160 milisegundos.

Luego, el decodificador integrado ayuda a traducir estos datos en acciones en tiempo real. Este sistema combinado logra un tiempo de respuesta total de aproximadamente 250 milisegundos, con una velocidad de control de 50 acciones por segundo.

Cómo Gemini Robotics admite el control de robots en tiempo real

Fig 3. Entender cómo Gemini Robotics respalda el control de robots en tiempo real.

Link to this sectionCapacidades clave de Gemini Robotics#

Aquí tienes un vistazo rápido a las características clave de Gemini Robotics:

  • Generalidad: Puede adaptarse a cambios en la iluminación, fondos y objetos mientras mantiene la precisión. También comprende comandos parafraseados o multilingües y puede ajustar los movimientos según diferentes condiciones.

  • Interactividad: Este modelo puede procesar una amplia gama de comandos en lenguaje natural y responder de manera intuitiva. Además, ajusta sus acciones basándose en cambios en tiempo real en el entorno, lo que lo hace ideal para la colaboración humano-robot.

  • Destreza: Un robot impulsado por este modelo puede realizar tareas complejas y precisas, como doblar origami o manipular objetos delicados. Ya sea un proceso paso a paso o acciones rápidas, el modelo puede ayudar a ejecutarlos de manera eficiente.

  • Múltiples encarnaciones: Funciona en diversas plataformas robóticas, como sistemas de doble brazo y robots humanoides, con poco ajuste fino. Se adapta rápidamente a nuevas tareas mientras mantiene un alto rendimiento.

Google Gemini Robotics trabajando en diversas plataformas robóticas

Fig 4. Google Gemini Robotics funciona en diversas plataformas robóticas.

Link to this sectionCapacidades clave de Gemini Robotics-ER#

Aquí tienes un vistazo a algunas de las características clave de Gemini Robotics-ER que ayudan a los robots a comprender e interactuar con el mundo:

  • Detección de objetos y seguimiento: se puede utilizar para identificar y rastrear objetos tanto en espacios 2D como 3D. Mediante el uso de consultas en lenguaje natural, ayuda a los robots a encontrar objetos y predecir sus posiciones, ya sea basándose en el tipo, la ubicación o la función.

  • Señalamiento: Esta función permite al modelo identificar objetos específicos o partes dentro de una imagen usando coordenadas precisas. Se puede utilizar para ayudar a los robots a localizar objetos completos, partes de objetos o incluso espacios vacíos.

  • Predicción de agarre: Gemini Robotics-ER puede utilizarse para determinar la mejor forma de agarrar objetos basándose en su forma y función. Predice dónde agarrar, ya sea un plátano o el asa de una taza, permitiendo a los robots manipular artículos con cuidado.

  • Razonamiento de trayectoria: El modelo se puede utilizar para planificar rutas de movimiento prediciendo secuencias de acciones. Por ejemplo, puede guiar una mano robótica hacia una herramienta o definir puntos de referencia para una tarea específica, ayudando al robot a completar tareas de manera eficiente.

  • Correspondencia multivista: Esta función ayuda al modelo a entender estructuras 3D comparando cómo aparecen los objetos desde diferentes ángulos. Puede usarse para mejorar el razonamiento espacial, permitiendo a los robots interactuar mejor con los objetos en entornos dinámicos.

Gemini Robotics-ER manejando una variedad de tareas

Fig 5. Gemini Robotics-ER puede manejar una variedad de tareas.

Link to this sectionAplicaciones de los modelos Google Gemini Robotics#

Ahora que hemos discutido las capacidades clave de Gemini Robotics y Gemini Robotics-ER, profundicemos en sus aplicaciones en el mundo real en diversas industrias.

Link to this sectionGoogle Gemini Robotics puede utilizarse en la fabricación#

Cuando se trata de fabricación, la precisión y la velocidad son importantes, pero la adaptabilidad es lo que realmente hace que todo funcione sin problemas. Por ejemplo, un robot industrial impulsado por Gemini puede ensamblar un sistema de poleas identificando los componentes correctos, posicionándolos correctamente y manejando una banda elástica flexible con la fuerza precisa.

Puede estirar la banda, pasarla alrededor de las poleas y asegurarla sin romperla ni desalinearla. Si la configuración cambia o la tarea varía, el robot puede adaptarse sin necesidad de una reprogramación extensiva. Esta automatización inteligente reduce errores, mejora la eficiencia y mantiene los procesos de fabricación funcionando sin problemas.

Un robot industrial de dos brazos colocando una banda de goma en un sistema de poleas

Fig 6. Un robot industrial de doble brazo coloca con precisión una banda elástica en un sistema de poleas.

Link to this sectionHogares inteligentes potenciados por Gemini Robotics#

Las agendas apretadas pueden hacer que mantenerse al día con las tareas domésticas sea un desafío. Los robots inteligentes pueden intervenir para realizar tareas como limpiar, clasificar la compra e incluso ayudar con la preparación de comidas, facilitando la vida diaria.

Esto podría verse como un robot preparando una bolsa de almuerzo, seleccionando y colocando cuidadosamente los alimentos en su interior mientras ajusta su agarre para proteger artículos frágiles como frutas o latas. Incluso si el arreglo cambia, el robot puede adaptarse por sí solo, facilitando las tareas diarias con una supervisión mínima.

Un robot humanoide empacando cuidadosamente una bolsa de almuerzo

Fig 7. Un robot humanoide empacando cuidadosamente una bolsa de almuerzo.

Link to this sectionPros y contras de aprovechar Gemini Robotics#

Gemini Robotics está ampliando lo que los robots pueden hacer, desde la fabricación de precisión hasta la asistencia en hogares inteligentes. Aquí tienes algunas ventajas clave de usar Gemini Robotics en diversas aplicaciones:

  • Requisitos de entrenamiento mínimos: A diferencia de los robots tradicionales, los robots impulsados por Gemini Robotics pueden aprender de unas pocas demostraciones, lo que reduce los costes de formación y los hace más fáciles de implementar.
  • Seguridad mejorada: En entornos peligrosos, los robots integrados con Gemini Robotics pueden realizar tareas peligrosas, reduciendo el riesgo de lesiones para los trabajadores humanos.
  • Características personalizables: La flexibilidad de Gemini Robotics significa que puede adaptarse para satisfacer las necesidades específicas de diferentes industrias o negocios individuales, permitiendo aplicaciones especializadas y soluciones únicas.

Aunque Gemini Robotics ofrece varios beneficios, también es importante abordar las siguientes limitaciones:

  • Desafíos en las relaciones espaciales: Estos modelos pueden tener dificultades para realizar un seguimiento de las relaciones espaciales a lo largo de secuencias de vídeo largas, lo que afecta a su capacidad para rastrear y entender objetos a lo largo del tiempo.
  • Falta de precisión numérica: Las predicciones del modelo, como puntos y cuadros delimitadores, pueden no ser lo suficientemente precisas para tareas que requieren un control fino, como tareas robóticas delicadas.
  • Tareas complejas: Gemini Robotics puede tener dificultades para manejar tareas complejas que requieren razonamiento de varios pasos y movimientos precisos, especialmente en situaciones nuevas o desconocidas.

Link to this sectionEl futuro de la IA en la robótica#

A medida que la IA sigue avanzando, modelos como Gemini Robotics y Gemini Robotics-ER están impulsando el futuro de la robótica. Las mejoras futuras probablemente se centrarán en mejorar el razonamiento de varios pasos, permitiendo a los robots desglosar tareas en pasos lógicos para una mayor precisión.

Otra área clave de desarrollo en la que Google DeepMind planea trabajar es el entrenamiento basado en simulación. Al aprender en entornos virtuales antes de la implementación en el mundo real, los robots pueden refinar su toma de decisiones y sus movimientos, minimizando los errores en aplicaciones prácticas.

A medida que estas tecnologías evolucionan, podrían allanar el camino hacia un futuro donde los robots sean más autónomos, adaptables y capaces de trabajar sin problemas junto a los humanos en la vida cotidiana.

Link to this sectionConclusiones clave#

Gemini Robotics es un gran paso adelante en la automatización impulsada por IA, conectando la inteligencia digital con tareas físicas del mundo real. Al combinar visión, lenguaje y aprendizaje basado en la acción, estos robots pueden manejar tareas complejas con precisión y adaptabilidad.

A medida que los robots sigan volviéndose más inteligentes, es probable que desempeñen un papel más importante en la vida diaria, cambiando la forma en que los humanos y las máquinas trabajan juntos. Este progreso nos acerca a un mundo inteligente y más conectado donde la automatización impulsada por IA mejora tanto las industrias como las tareas cotidianas.

¡Forma parte de nuestra creciente comunidad! Visita nuestro repositorio de GitHub para profundizar en la IA. ¿Buscas comenzar tus propios proyectos de visión artificial? Echa un vistazo a nuestras opciones de licencia. ¡Aprende más sobre la IA en la fabricación y la IA de visión en la industria automotriz en nuestras páginas de soluciones!

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.
Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.
Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.
Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.
Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.
Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.
Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.
Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático