Os modelos Gemini Robotics da Google estão a alimentar robôs mais inteligentes

Abirami Vina

4 min ler

4 de abril de 2025

Explore a forma como a Google Gemini Robotics melhora os robôs alimentados por IA com inteligência multimodal, aumentando a adaptabilidade, a destreza e a interação humana sem falhas.

Durante décadas, os robôs simbolizaram o futuro, aparecendo em laboratórios de investigação, filmes de ficção científica e mostras de protótipos da indústria de ponta. Agora, graças ao recente progresso da inteligência artificial (IA), estes protótipos estão a passar de ambientes controlados para aplicações no mundo real. 

Especificamente, com a Gemini Robotics, a Google está a dar um passo em frente na tecnologia necessária para construir robôs mais inteligentes. Lançado em 12 de março de 2025, o modelo Gemini Robotics e o seu modelo complementar, Gemini Robotics-ER (Embodied Reasoning), são as mais recentes inovações da Google DeepMind. 

São construídos com base no Gemini 2.0, um modelo multimodal de grande linguagem (LLM) que pode processar e gerar vários tipos de dados, incluindo texto, imagens, áudio e vídeo, facilitando interações mais versáteis e naturais. Estes modelos trazem as capacidades multimodais do Gemini 2.0 para o mundo físico, permitindo robôs mais hábeis, interactivos e inteligentes.

Por exemplo, ao contrário dos robôs tradicionais que seguem instruções fixas, os robôs integrados com os modelos Gemini Robotics podem processar a visão e a linguagem. Isto permite-lhes tomar decisões em tempo real e adaptarem-se a ambientes em mudança.

Neste artigo, vamos explorar a Gemini Robotics e a Gemini Robotics-ER, como funcionam estes modelos e as suas principais caraterísticas e aplicações. Vamos lá começar!

__wf_reserved_inherit
Fig. 1. A Gemini Robotics ajuda os robots a realizar múltiplas tarefas de forma eficiente.

Apresentação do Google Gemini Robotics

O Gemini Robotics da Google é um modelo avançado de IA concebido para dar aos robots a capacidade de perceber, raciocinar e interagir no mundo físico. Enquanto modelo de visão-linguagem-ação (VLA), permite que os robôs processem instruções, interpretem o seu ambiente e executem tarefas complexas com elevada precisão.

Entretanto, o modelo Gemini Robotics-ER melhora a capacidade de um robô para compreender as relações espaciais de como os objectos estão posicionados, como se movem e como interagem. Isto ajuda os robôs a antecipar acções e a ajustar os seus movimentos em conformidade. 

Por exemplo, considere uma tarefa em que um robô tem de enrolar um fio à volta de um auscultador. O Gemini Robotics-ER ajuda-o a compreender o cenário, a reconhecer a forma e a flexibilidade do fio, a identificar a estrutura dos auscultadores e a prever a forma como o fio se dobrará à medida que se move. Depois, a Gemini Robotics traduz esta compreensão em ação, coordenando as duas mãos para manipular o fio suavemente, ajustando a sua aderência para evitar o emaranhamento e garantindo um enrolamento seguro.

Combinando a perceção com a ação, a Gemini Robotics e a Gemini Robotics-ER criam um sistema inteligente que permite aos robôs executarem tarefas de destreza de forma eficiente em ambientes dinâmicos.

__wf_reserved_inherit
Figura 2. Uma visão geral da família de modelos Gemini Robotics.

IA na robótica: Explorar o funcionamento da Gemini Robotics

Em seguida, vamos analisar mais detalhadamente cada modelo para compreender melhor como a Gemini Robotics e a Gemini Robotics-ER trabalham em conjunto para equilibrar a flexibilidade e as acções rápidas. 

Por um lado, o Gemini Robotics-ER tira partido de dois mecanismos fundamentais: a geração de código zero-shot e a aprendizagem em contexto (ICL) com poucos disparos. Com a geração de código zero-shot, o modelo pode criar código para controlar o robô com base em instruções de tarefas, imagens e dados em tempo real, sem necessidade de formação adicional. 

Do mesmo modo, com a aprendizagem de poucos exemplos, o modelo adapta-se a novas tarefas aprendendo apenas com alguns exemplos, reduzindo a necessidade de formação extensiva. Em conjunto, estes métodos permitem que o robô execute rapidamente tarefas complexas e se adapte a novos desafios com um esforço mínimo.

A Gemini Robotics, por outro lado, foi criada para ser rápida e eficiente. Utiliza um sistema híbrido composto por uma espinha dorsal baseada na nuvem e um descodificador de acções integrado. A espinha dorsal baseada na nuvem processa a informação rapidamente, com uma latência de consulta para resposta inferior a 160 milissegundos. 

Em seguida, o descodificador integrado ajuda a traduzir estes dados em acções em tempo real. Este sistema combinado atinge um tempo de resposta global de aproximadamente 250 milissegundos, com uma velocidade de controlo de 50 acções por segundo.

__wf_reserved_inherit
Figura 3. Compreender como a Gemini Robotics suporta o controlo de robôs em tempo real.

Principais capacidades da Gemini Robotics 

Eis um breve resumo das principais caraterísticas da Gemini Robotics:

  • Generalidade: Pode adaptar-se a alterações na iluminação, fundos e objectos, mantendo a precisão. Também compreende comandos parafraseados ou multilingues e pode ajustar os movimentos para diferentes condições.

  • Interatividade: Este modelo pode processar uma vasta gama de comandos em linguagem natural e responder intuitivamente. Também ajusta as suas acções com base em alterações em tempo real no ambiente, tornando-o ideal para a colaboração entre humanos e robôs.

  • Destreza: Um robô equipado com este modelo pode executar tarefas complexas e precisas, como dobrar origami ou manusear objectos delicados. Quer se trate de um processo passo a passo ou de acções rápidas, o modelo pode ajudar a executá-las eficazmente.
  • Múltiplas formas de realização: Funciona em várias plataformas robóticas, como sistemas de dois braços e robôs humanóides, com poucos ajustes finos. Adapta-se rapidamente a novas tarefas, mantendo um elevado desempenho.
__wf_reserved_inherit
Fig. 4. A Google Gemini Robotics trabalha com várias plataformas robóticas.

Principais capacidades da Gemini Robotics - ER

Eis algumas das principais caraterísticas do Gemini Robotics-ER que ajudam os robôs a compreender e a interagir com o mundo:

  • Deteção de objectos e seguimento de objectos: Pode ser utilizado para identificar e seguir objectos em espaços 2D e 3D. Ao utilizar consultas em linguagem natural, ajuda os robôs a encontrar objectos e a prever as suas posições, quer com base no tipo, localização ou função.

  • Apontamento: Esta funcionalidade permite que o modelo localize objectos ou partes específicas de uma imagem utilizando coordenadas precisas. Pode ser utilizada para ajudar os robôs a localizar objectos inteiros, partes de objectos ou mesmo espaços vazios.
  • Previsão da preensão: O Gemini Robotics-ER pode ser utilizado para determinar a melhor forma de agarrar objectos com base na sua forma e função. Prevê onde agarrar, quer se trate de uma banana ou de uma pega de chávena, permitindo que os robôs manuseiem os objectos com cuidado.

  • Raciocínio de trajetória: O modelo pode ser utilizado para planear trajectórias de movimento através da previsão de sequências de acções. Por exemplo, pode orientar a mão de um robô para uma ferramenta ou definir pontos de passagem para uma tarefa específica, ajudando o robô a concluir tarefas de forma eficiente.

  • Correspondência de múltiplas vistas: Esta caraterística ajuda o modelo a compreender as estruturas 3D, comparando a forma como os objectos aparecem de diferentes ângulos. Pode ser utilizada para melhorar o raciocínio espacial, permitindo que os robôs interajam melhor com os objectos em ambientes dinâmicos.
__wf_reserved_inherit
Fig. 5. O Gemini Robotics-ER pode efetuar uma grande variedade de tarefas.

Aplicações dos modelos do Google Gemini Robotics

Agora que já discutimos as principais capacidades da Gemini Robotics e da Gemini Robotics-ER, vamos analisar as suas aplicações no mundo real em vários sectores.

A Google Gemini Robotics pode ser utilizada no fabrico

Quando se trata de fabrico, a precisão e a velocidade são importantes, mas a adaptabilidade é o que realmente faz com que tudo corra bem. Por exemplo, um robô industrial com tecnologia Gemini pode montar um sistema de polias identificando os componentes certos, posicionando-os corretamente e manipulando um elástico flexível com uma força precisa. 

É capaz de esticar a banda, enrolá-la à volta das roldanas e fixá-la sem se partir ou desalinhar. Se a configuração mudar ou a tarefa variar, o robot pode adaptar-se sem necessitar de uma reprogramação extensiva. Esta automatização inteligente reduz os erros, melhora a eficiência e mantém os processos de fabrico a funcionar sem problemas.

__wf_reserved_inherit
Fig. 6. Um robô industrial com dois braços encaixa com precisão um elástico num sistema de roldanas.

Casas inteligentes com a Gemini Robotics

Os horários ocupados podem tornar difícil acompanhar as tarefas domésticas. Os robôs inteligentes podem intervir para realizar tarefas como limpar, separar as compras e até ajudar a preparar as refeições, facilitando a vida quotidiana

Pode ser o caso de um robô que embala um saco de almoço, selecionando e colocando cuidadosamente os alimentos no seu interior, enquanto ajusta a sua pega para proteger objectos frágeis como fruta ou latas. Mesmo que a disposição mude, o robô pode adaptar-se sozinho, facilitando as tarefas diárias com o mínimo de supervisão.

__wf_reserved_inherit
Fig. 7. Um robô humanoide que arruma cuidadosamente um saco de almoço.

Prós e contras da utilização da Gemini Robotics 

A Gemini Robotics está a expandir as capacidades dos robôs, desde o fabrico preciso até à assistência doméstica inteligente. Eis algumas das principais vantagens da utilização da Gemini Robotics em várias aplicações: 

  • Formação formação requisitos: Ao contrário dos robôs tradicionais, os robôs da Gemini Robotics podem aprender com algumas demonstrações, reduzindo os custos de formação e tornando-os mais fáceis de utilizar.

  • Maior segurança: Em ambientes perigosos, os robôs integrados com a Gemini Robotics podem efetuar tarefas perigosas, reduzindo o risco de lesões nos trabalhadores humanos.
  • Caraterísticas personalizáveis: A flexibilidade da Gemini Robotics significa que pode ser adaptada para satisfazer as necessidades específicas de diferentes sectores ou empresas individuais, permitindo aplicações especializadas e soluções únicas.

Embora a Gemini Robotics ofereça várias vantagens, também é importante ter em conta as seguintes limitações:

  • Desafios de relações espaciais: Estes modelos podem ter dificuldade em manter o registo das relações espaciais em longas sequências de vídeo, o que afecta a sua capacidade de seguir e compreender os objectos ao longo do tempo.
  • Falta de precisão numérica: As previsões do modelo, como pontos e caixas delimitadoras, podem não ser suficientemente precisas para tarefas que exijam um controlo fino, como as tarefas robóticas delicadas.
  • Tarefas complexas: A Gemini Robotics pode ter dificuldade em lidar com tarefas complexas que exijam raciocínio em várias etapas e movimentos precisos, especialmente em situações novas ou desconhecidas. 

O futuro da IA na robótica

À medida que a IA continua a avançar, modelos como o Gemini Robotics e o Gemini Robotics-ER estão a impulsionar o futuro da robótica. As melhorias futuras centrar-se-ão provavelmente na melhoria do raciocínio em várias etapas, permitindo que os robôs dividam as tarefas em etapas lógicas para uma maior precisão.

Outra área fundamental de desenvolvimento em que a Google DeepMind planeia trabalhar é a formação baseada em simulações. Ao aprenderem em ambientes virtuais antes de serem utilizados no mundo real, os robôs podem aperfeiçoar as suas decisões e movimentos, minimizando os erros nas aplicações práticas.

À medida que estas tecnologias evoluem, poderão abrir caminho a um futuro em que os robôs sejam mais autónomos, adaptáveis e capazes de trabalhar sem problemas ao lado dos humanos na vida quotidiana.

Principais conclusões

A Gemini Robotics é um grande passo em frente na automação orientada para a IA, ligando a inteligência digital a tarefas físicas do mundo real. Combinando visão, linguagem e aprendizagem baseada na ação, estes robôs podem realizar tarefas complexas com precisão e adaptabilidade. 

À medida que os robôs continuam a tornar-se mais inteligentes, é provável que venham a desempenhar um papel mais importante na vida quotidiana, alterando a forma como os seres humanos e as máquinas trabalham em conjunto. Este progresso está a aproximar-nos de um mundo inteligente e mais conectado, onde a automação impulsionada pela IA melhora tanto as indústrias como as tarefas quotidianas.

Faça parte da nossa comunidade em crescimento! Visite o nosso repositório GitHub para mergulhar mais fundo na IA. Pretende iniciar os seus próprios projectos de visão computacional? Veja as nossas opções de licenciamento. Saiba mais sobre a IA no fabrico e a IA de visão na indústria automóvel nas nossas páginas de soluções!

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência