O Google Genie 3 dá vida ao seu mundo 3D com IA

Abirami Vina

4 min ler

15 de agosto de 2025

O modelo mundial de IA Genie 3 da DeepMind converte comandos de texto ou imagem em ambientes 3D. Este avanço marca mais um passo em direção a uma inteligência semelhante à humana.

Em 5 de agosto de 2025, a Google DeepMind lançou a sua última versão do modelo Genie, conhecido como Genie 3. Trata-se de um novo modelo de IA que pode converter as instruções de texto de um utilizador em ambientes dinâmicos e interactivos. 

Estes ambientes, ou mundos de IA, permitem que o utilizador navegue e interaja com eles em tempo real, tal como num jogo de vídeo. Os utilizadores podem também expandir ou modificar o ambiente, fornecendo instruções de texto adicionais, permitindo alterações em tempo real sem reiniciar a simulação. 

O que torna o mais recente modelo Genie Google particularmente impactante é o facto de poder ser utilizado para treinar agentes de IA. Isto implica ensinar os agentes de IA a tomar decisões ou a executar tarefas utilizando dados e feedback. Ao utilizar um ambiente 3D simulado em vez do mundo real, os investigadores podem evitar muitos dos desafios, custos e riscos da formação no mundo real.

O Google Genie 3 também pode simular cenários complexos, como testar um carro autónomo a conduzir em condições meteorológicas adversas ou um fato de asa a planar em terreno montanhoso. 

Neste artigo, vamos explorar o Google Genie 3 e as suas capacidades. Vamos começar!

Fig 1. Um fotograma de uma simulação Genie 3 mostrando um wingsuit a planar.(Fonte)

Uma breve história dos modelos Genie da Google

Antes de nos debruçarmos sobre os modelos Genie do Google DeepMind, vamos compreender melhor o que são modelos mundiais. 

Os modelos de mundo são sistemas de IA que aprendem regras do mundo real, como a física, o movimento e as relações espaciais, a partir de textos, imagens, vídeos e conjuntos de dados de movimento. Isto permite-lhes criar cenas realistas e prever a sua evolução. Os modelos Genie são exemplos deste tipo de sistemas.

Aqui está uma breve descrição dos modelos anteriores do Google Genie que abriram caminho para o Genie 3:

  • Genie 1: O Genie 1, muitas vezes referido simplesmente como Google Genie, foi o primeiro modelo de mundo de IA da Google DeepMind capaz de criar ambientes virtuais interactivos. Os utilizadores podiam descrever um mundo com texto, imagens, fotografias ou mesmo esboços, e o Genie gerava-o, permitindo-lhes controlar as acções dentro da cena. Foi concebido para processar dados de vídeo ao longo do tempo, prever a imagem seguinte e traduzir os dados do utilizador em acções no mundo.
  • Genie 2: Com base nas capacidades do Google Genie, o Genie 2 podia criar uma vasta gama de mundos 3D detalhados e interactivos. Como modelo de mundo, simulava ambientes virtuais e respondia de forma realista a acções como saltar, nadar ou mover objectos. Treinado com base numa enorme coleção de vídeos, apresentava interações realistas com objectos e movimentos de personagens realistas.

O que é o Genie 3? O novo modelo de IA da Google

Com base nos modelos Genie anteriores, o Genie 3 é o mais recente e mais avançado da série. Baseia-se particularmente no Genie 2, que pode gerar novos ambientes virtuais, e no Veo 3, o mais recente modelo de geração de vídeo da Google DeepMind. O Veo 3 demonstra uma profunda compreensão da física e da forma como os objectos interagem no mundo real.

Enquanto o Veo 3 utiliza um motor de física codificado, o Google Genie 3 ensina a si próprio como funciona a física utilizando um método conhecido como aprendizagem auto-supervisionada. Trata-se de uma técnica de aprendizagem de IA em que um modelo de IA aprende padrões e relações a partir de dados não rotulados, gerando os seus próprios sinais de aprendizagem. 

A capacidade de aprendizagem auto-supervisionada do Google Genie 3 é crucial para o treino de sistemas de IA, como agentes de IA ou robôs de IA, para lidar com várias tarefas. De facto, os investigadores da Google DeepMind vêem o Genie 3 como um passo importante para a criação da Inteligência Artificial Geral (AGI)

Fig. 2. Um exemplo de utilização do Google Genie 3 para simular o controlo de um rover robótico.(Fonte)

A AGI é uma forma teórica de IA que pode compreender e aprender qualquer tarefa ou assunto e aplicar esse conhecimento em diferentes situações, tal como um ser humano. Ao contrário dos actuais modelos de inteligência artificial, que são concebidos para tarefas específicas e têm dificuldade em transferir as suas competências para novos problemas, a AGI seria capaz de se adaptar e aprender numa vasta gama de contextos.

Principais caraterísticas do Google Genie 3 relacionadas com a construção de um mundo de IA

Aqui estão algumas das principais caraterísticas suportadas pelo Genie 3:

  • Geração de mundos de texto para 3D: Pode transformar uma simples mensagem de texto (por exemplo, "um robô a andar na rua") num ambiente 3D jogável com controlos básicos de movimento.
  • Eventos do mundo que podem ser solicitados: Os utilizadores podem alterar dinamicamente o ambiente digitando novos comandos (por exemplo, adicionar chuva à rua).
  • Memória visual: O Genie 3 pode lembrar-se de objectos deixados no ambiente e permitir que os revisite mais tarde, com uma duração de cerca de um minuto.
  • Saída de vídeo suave e consistente: Consegue manter uma saída de vídeo de 24 fps (fotogramas por segundo) a uma resolução de 720p, com um maior envolvimento em comparação com o Genie 2.
Fig. 3. O Google Genie 3 pode gerar resultados que duram mais tempo do que os produzidos pelo Genie 2.(Fonte)

Da educação aos jogos: Aplicações do Genie 3 da Google DeepMind

O Google Genie 3 pode tornar a aprendizagem, a investigação e a formação mais imersivas e envolventes. Por exemplo, nas salas de aula, pode dar vida à história, à ciência ou à geografia, permitindo que os alunos explorem cidades antigas ou viajem pelo espaço. Do mesmo modo, para os programadores de inteligência artificial, oferece mundos virtuais realistas para praticar estratégias, enfrentar desafios e melhorar as capacidades de tomada de decisões.

Os cientistas também podem utilizá-lo para criar simulações controladas para testar ideias, estudar ecossistemas ou observar o comportamento de objectos. Outra aplicação interessante é o desenvolvimento de jogos de vídeo. Os criadores de jogos podem transformar mensagens de texto em mundos de jogo detalhados, acelerando o desenvolvimento e reduzindo a necessidade de grandes equipas.

Fig. 4. Os jogos divertidos, coloridos e interactivos podem ser concebidos com o Genie 3.(Fonte)

Limitações do Google Genie 3 como modelo mundial

Embora o Google Genie 3 ofereça muitas funcionalidades e vantagens, também é importante ter em conta as suas desvantagens. 

Eis algumas limitações a considerar:

  • Alcance limitado das acções: Embora seja possível acionar muitos eventos no mundo virtual, nem todos são executados pelo próprio agente. As acções que um agente pode executar diretamente são ainda limitadas.
  • Interação com outros agentes: A criação de interações realistas entre vários agentes independentes no mesmo ambiente é ainda um trabalho em curso.
  • Precisão no mundo real: O Google Genie 3 ainda não consegue recriar localizações do mundo real com uma precisão geográfica perfeita.

Principais conclusões

O Google Genie 3 representa um avanço significativo na criação de mundos 3D realistas e interactivos com IA. Pode dar vida a ideias a partir de simples comandos de texto, simular a física e até treinar sistemas de IA em espaços virtuais seguros. 

Embora ainda tenha limites, abre muitas possibilidades para a investigação, os jogos e o desenvolvimento da IA. É também um passo crucial para os sistemas de inteligência artificial que podem pensar e aprender mais como os humanos.

Consulte o nosso repositório GitHub para saber mais sobre a IA. Junte-se à nossa comunidade ativa e descubra inovações em sectores como a IA no sector do retalho e a IA de visão no fabrico. Para começar a usar a visão computacional hoje mesmo, confira nossas opções de licenciamento.

Vamos construir juntos o futuro
da IA!

Comece a sua viagem com o futuro da aprendizagem automática

Comece gratuitamente
Ligação copiada para a área de transferência