Google Genie 3: DeepMind revela um novo modelo de IA

Em 5 de agosto de 2025, Google DeepMind lançou a sua última versão do modelo Genie, conhecido como Genie 3. Trata-se de um novo modelo de IA que pode converter as instruções de texto de um utilizador em ambientes dinâmicos e interactivos.

Esses ambientes, ou mundos de IA, possibilitam que o usuário navegue e interaja com eles em tempo real, como em um videogame. Os usuários também podem expandir ou modificar o ambiente, fornecendo prompts de texto adicionais, permitindo alterações em tempo real sem reiniciar a simulação.

O que torna o mais recente modelo Genie Google particularmente impactante é o facto de poder ser utilizado para treinar agentes de IA. Isto implica ensinar os agentes de IA a tomar decisões ou a executar tarefas utilizando dados e feedback. Ao utilizar um ambiente 3D simulado em vez do mundo real, os investigadores podem evitar muitos dos desafios, custos e riscos da formação no mundo real.

Google Genie 3 também pode simular cenários complexos, como testar um carro autónomo a conduzir com mau tempo ou um fato de asa a planar em terreno montanhoso.

Neste artigo, vamos explorar Google Genie 3 e as suas capacidades. Vamos começar!

Fig 1. Um frame de uma simulação Genie 3 mostrando um wingsuit deslizando. (Fonte)

‍

Uma breve história dos modelos Genie da Google

Antes de nos debruçarmos sobre os modelos Genie do Google DeepMind, vamos compreender melhor o que são modelos mundiais.

Os modelos mundiais são sistemas de IA que aprendem regras do mundo real, como física, movimento e relações espaciais, a partir de texto, imagens, vídeos e conjuntos de dados de movimento. Isto permite-lhes criar cenas realistas e prever como elas evoluem. Os modelos Genie são exemplos de tais sistemas.

Aqui está uma breve descrição dos modelos anteriores Google Genie que abriram caminho para o Genie 3:

Genie 1: O Genie 1, muitas vezes referido simplesmente como Google Genie, foi o primeiro modelo de mundo de IA da Google DeepMind capaz de criar ambientes virtuais interactivos. Os utilizadores podiam descrever um mundo com texto, imagens, fotografias ou mesmo esboços, e o Genie gerava-o, permitindo-lhes controlar as acções dentro da cena. Foi concebido para processar dados de vídeo ao longo do tempo, prever a imagem seguinte e traduzir os dados do utilizador em acções no mundo.

Genie 2: Com base nas capacidades do Google Genie, o Genie 2 podia criar uma vasta gama de mundos 3D detalhados e interactivos. Como modelo de mundo, simulava ambientes virtuais e respondia de forma realista a acções como saltar, nadar ou mover objectos. Treinado numa enorme coleção de vídeos, apresentava interações realistas com objectos e movimentos de personagens realistas.

O que é o Genie 3? O novo modelo de IA da Google

Com base nos modelos Genie anteriores, o Genie 3 é o mais recente e mais avançado da série. Baseia-se particularmente no Genie 2, que pode gerar novos ambientes virtuais, e no Veo 3, o mais recente modelo de geração de vídeo da Google DeepMind. O Veo 3 demonstra uma profunda compreensão da física e da forma como os objectos interagem no mundo real.

Enquanto o Veo 3 utiliza um motor de física codificado, Google Genie 3 ensina a si próprio como funciona a física utilizando um método conhecido como aprendizagem auto-supervisionada. Trata-se de uma técnica de aprendizagem de IA em que um modelo de IA aprende padrões e relações a partir de dados não rotulados, gerando os seus próprios sinais de aprendizagem.

A capacidade de aprendizagem auto-supervisionada do Google Genie 3 é crucial para a formação de sistemas de IA, como agentes de IA ou robôs de IA, para lidar com várias tarefas. De facto, os investigadores da Google DeepMind vêem o Genie 3 como um passo importante para a criação da Inteligência Artificial Geral (AGI).

Fig. 2. Um exemplo de utilização do Google Genie 3 para simular o controlo de um rover robótico.(Fonte)

‍

AGI é uma forma teórica de IA que pode entender e aprender qualquer tarefa ou assunto e aplicar esse conhecimento em diferentes situações, muito parecido com um humano. Ao contrário dos modelos de inteligência artificial de hoje, que são construídos para tarefas específicas e lutam para transferir suas habilidades para novos problemas, a AGI seria capaz de se adaptar e aprender em uma ampla gama de contextos.

Principais caraterísticas do Google Genie 3 relacionadas com a construção de um mundo de IA

Aqui estão alguns dos principais recursos suportados pelo Genie 3:

Geração de mundo 3D a partir de texto: Pode transformar um simples prompt de texto (por exemplo, “um robô andando na rua”) em um ambiente jogável semelhante a 3D com controles básicos de movimento.

Eventos mundiais acionáveis por prompt: Os usuários podem alterar dinamicamente o ambiente digitando novos comandos (por exemplo, adicionar chuva à rua).

Memória visual: O Genie 3 consegue lembrar de objetos deixados para trás no ambiente e permite que você os revisite mais tarde, por cerca de um minuto.

Saída de vídeo suave e consistente: Ele pode manter uma saída de vídeo de 24 fps (quadros por segundo) em resolução de 720p, com maior engajamento em comparação com o Genie 2.

Fig. 3. Google Genie 3 pode gerar resultados que duram mais tempo do que os produzidos pelo Genie 2.(Fonte)

‍

Da educação aos jogos: Aplicações do Genie 3 da Google DeepMind

Google Genie 3 pode tornar a aprendizagem, a investigação e a formação mais envolventes e cativantes. Por exemplo, nas salas de aula, pode dar vida à história, à ciência ou à geografia, permitindo que os alunos explorem cidades antigas ou viajem pelo espaço. Do mesmo modo, para os programadores de inteligência artificial, oferece mundos virtuais realistas para praticar estratégias, enfrentar desafios e melhorar as capacidades de tomada de decisões.

Os cientistas também podem usá-lo para criar simulações controladas para testar ideias, estudar ecossistemas ou observar o comportamento de objetos. Outra aplicação interessante é no desenvolvimento de jogos de vídeo. Os desenvolvedores de jogos podem transformar prompts de texto em mundos de jogos detalhados, acelerando o desenvolvimento e reduzindo a necessidade de grandes equipes.

Fig 4. Jogos divertidos, coloridos e interativos podem ser projetados usando o Genie 3. (Source)

‍

Limitações do Google Genie 3 como modelo mundial

Embora Google Genie 3 ofereça muitas funcionalidades e vantagens, também é importante ter em conta as suas desvantagens.

Aqui estão algumas limitações a serem consideradas:

Alcance de ação limitado: Embora você possa acionar muitos eventos no mundo virtual, nem todos são realizados pelo próprio agente. As ações que um agente pode executar diretamente ainda são limitadas.

Interação com outros agentes: Criar interações realistas entre múltiplos agentes independentes no mesmo ambiente ainda é um trabalho em andamento.

Precisão no mundo real: Google Genie 3 ainda não consegue recriar localizações do mundo real com uma precisão geográfica perfeita.

Principais conclusões

Google Genie 3 representa um avanço significativo na criação de mundos 3D realistas e interactivos com IA. Pode dar vida a ideias a partir de simples comandos de texto, simular a física e até treinar sistemas de IA em espaços virtuais seguros.

Embora ainda tenha limites, abre muitas possibilidades para pesquisa, jogos e desenvolvimento de IA. É também um passo crucial em direção a sistemas AGI que podem pensar e aprender mais como os humanos.

Confira nosso repositório no GitHub para descobrir mais sobre IA. Junte-se à nossa comunidade ativa e descubra inovações em setores como IA no varejo e Visão de IA na manufatura. Para começar a usar a visão computacional hoje mesmo, confira nossas opções de licenciamento.

Google Genie 3 dá vida ao seu mundo 3D com IA

Uma breve história dos modelos Genie da Google

O que é o Genie 3? O novo modelo de IA da Google

Principais caraterísticas do Google Genie 3 relacionadas com a construção de um mundo de IA

Da educação aos jogos: Aplicações do Genie 3 da Google DeepMind

Limitações do Google Genie 3 como modelo mundial

Principais conclusões

Leia mais nesta categoria

12 casos de uso de imagens aéreas com tecnologia de visão computacional

Ferramentas de IA de visão para diagnósticos na área da saúde

Dos dados às decisões: usando IA visual para a estratégia empresarial

Vamos construir o futuro
da IA juntos!

Google Genie 3 dá vida ao seu mundo 3D com IA

Uma breve história dos modelos Genie da Google

O que é o Genie 3? O novo modelo de IA da Google

Principais caraterísticas do Google Genie 3 relacionadas com a construção de um mundo de IA

Da educação aos jogos: Aplicações do Genie 3 da Google DeepMind

Limitações do Google Genie 3 como modelo mundial

Principais conclusões

Leia mais nesta categoria

12 casos de uso de imagens aéreas com tecnologia de visão computacional

Ferramentas de IA de visão para diagnósticos na área da saúde

Dos dados às decisões: usando IA visual para a estratégia empresarial

Vamos construir o futuro da IA juntos!

Vamos construir o futuro
da IA juntos!