Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024

Google Genie 3 traz seu mundo 3D à vida com IA

Abirami Vina

4 min de leitura

15 de agosto de 2025

O modelo mundial de IA Genie 3 da DeepMind converte prompts de texto ou imagem em ambientes 3D. Este avanço marca mais um passo em direção à inteligência semelhante à humana.

Em 5 de agosto de 2025, o Google DeepMind lançou a sua versão mais recente do modelo Genie, conhecido como Genie 3. É um novo modelo de IA que pode converter as instruções de texto de um utilizador em ambientes dinâmicos e interativos. 

Esses ambientes, ou mundos de IA, possibilitam que o usuário navegue e interaja com eles em tempo real, como em um videogame. Os usuários também podem expandir ou modificar o ambiente, fornecendo prompts de texto adicionais, permitindo alterações em tempo real sem reiniciar a simulação. 

O que torna o modelo Genie Google mais recente particularmente impactante é que ele pode ser usado para treinar agentes de IA. Isso envolve ensinar agentes de IA a tomar decisões ou realizar tarefas usando dados e feedback. Ao usar um ambiente 3D simulado em vez do mundo real, os pesquisadores podem evitar muitos dos desafios, custos e riscos do treino no mundo real.

O Google Genie 3 também pode simular cenários complexos, como testar um carro autônomo dirigindo em condições climáticas adversas ou um wingsuit deslizando por terrenos montanhosos. 

Neste artigo, exploraremos o Google Genie 3 e suas capacidades. Vamos começar!

Fig 1. Um frame de uma simulação Genie 3 mostrando um wingsuit deslizando. (Fonte)

Uma breve história dos modelos Genie do Google

Antes de nos aprofundarmos nos modelos Genie do Google DeepMind, vamos entender melhor o que são modelos mundiais. 

Os modelos mundiais são sistemas de IA que aprendem regras do mundo real, como física, movimento e relações espaciais, a partir de texto, imagens, vídeos e conjuntos de dados de movimento. Isto permite-lhes criar cenas realistas e prever como elas evoluem. Os modelos Genie são exemplos de tais sistemas.

Aqui está um rápido vislumbre dos modelos Google Genie anteriores que abriram caminho para o Genie 3:

  • Genie 1: Genie 1, frequentemente referido simplesmente como Google Genie, foi o primeiro modelo mundial de IA do Google DeepMind capaz de criar ambientes virtuais interativos. Os usuários podiam descrever um mundo com texto, imagens, fotos ou até esboços, e o Genie o gerava, permitindo que controlassem as ações dentro da cena. Foi projetado para processar dados de vídeo ao longo do tempo, prever o próximo frame e traduzir as entradas do usuário em ações no mundo virtual.
  • Genie 2: Com base nas capacidades do Google Genie, o Genie 2 podia criar uma ampla gama de mundos 3D detalhados e interativos. Como um modelo mundial, simulava ambientes virtuais e respondia realisticamente a ações como pular, nadar ou mover objetos. Treinado com uma enorme coleção de vídeos, apresentava interações realistas de objetos e movimentos de personagens realistas.

O que é o Genie 3? O novo modelo de IA do Google

Com base nos modelos Genie anteriores, o Genie 3 é o mais recente e avançado da série. Ele se baseia particularmente no Genie 2, que poderia gerar novos ambientes virtuais, e no Veo 3, o modelo de geração de vídeo mais recente do Google DeepMind. O Veo 3 demonstra uma profunda compreensão da física e de como os objetos interagem no mundo real.

Enquanto o Veo 3 usa um motor de física codificado, o Google Genie 3 ensina a si mesmo como a física funciona usando um método conhecido como aprendizado auto-supervisionado. É uma técnica de aprendizado de IA onde um modelo de IA aprende padrões e relacionamentos de dados não rotulados, gerando seus próprios sinais de aprendizado. 

A capacidade de aprendizado auto supervisionado do Google Genie 3 é crucial para treinar sistemas de IA, como agentes de IA ou robôs de IA, para lidar com várias tarefas. De fato, pesquisadores do Google DeepMind veem o Genie 3 como um passo importante para a criação da Inteligência Artificial Geral (AGI)

Fig. 2. Um exemplo de uso do Google Genie 3 para simular o controle de um rover robótico. (Fonte)

AGI é uma forma teórica de IA que pode entender e aprender qualquer tarefa ou assunto e aplicar esse conhecimento em diferentes situações, muito parecido com um humano. Ao contrário dos modelos de inteligência artificial de hoje, que são construídos para tarefas específicas e lutam para transferir suas habilidades para novos problemas, a AGI seria capaz de se adaptar e aprender em uma ampla gama de contextos.

Principais recursos do Google Genie 3 relacionados à construção de um mundo de IA

Aqui estão alguns dos principais recursos suportados pelo Genie 3:

  • Geração de mundo 3D a partir de texto: Pode transformar um simples prompt de texto (por exemplo, “um robô andando na rua”) em um ambiente jogável semelhante a 3D com controles básicos de movimento.
  • Eventos mundiais acionáveis por prompt: Os usuários podem alterar dinamicamente o ambiente digitando novos comandos (por exemplo, adicionar chuva à rua).
  • Memória visual: O Genie 3 consegue lembrar de objetos deixados para trás no ambiente e permite que você os revisite mais tarde, por cerca de um minuto.
  • Saída de vídeo suave e consistente: Ele pode manter uma saída de vídeo de 24 fps (quadros por segundo) em resolução de 720p, com maior engajamento em comparação com o Genie 2.
Fig. 3. O Google Genie 3 pode gerar saídas que duram mais do que as produzidas pelo Genie 2.

Educação ao gaming: Aplicações do Genie 3 do Google DeepMind

O Google Genie 3 pode tornar o aprendizado, a pesquisa e o treinamento mais imersivos e envolventes. Por exemplo, em salas de aula, pode dar vida à história, à ciência ou à geografia, permitindo que os alunos explorem cidades antigas ou viajem pelo espaço. Da mesma forma, para desenvolvedores de inteligência artificial, oferece mundos virtuais realistas para praticar estratégias, superar desafios e aprimorar habilidades de tomada de decisão.

Os cientistas também podem usá-lo para criar simulações controladas para testar ideias, estudar ecossistemas ou observar o comportamento de objetos. Outra aplicação interessante é no desenvolvimento de jogos de vídeo. Os desenvolvedores de jogos podem transformar prompts de texto em mundos de jogos detalhados, acelerando o desenvolvimento e reduzindo a necessidade de grandes equipes.

Fig 4. Jogos divertidos, coloridos e interativos podem ser projetados usando o Genie 3. (Source)

Limitações do Google Genie 3 como um modelo mundial

Embora o Google Genie 3 ofereça muitos recursos e benefícios, também é importante considerar as suas desvantagens. 

Aqui estão algumas limitações a serem consideradas:

  • Alcance de ação limitado: Embora você possa acionar muitos eventos no mundo virtual, nem todos são realizados pelo próprio agente. As ações que um agente pode executar diretamente ainda são limitadas.
  • Interação com outros agentes: Criar interações realistas entre múltiplos agentes independentes no mesmo ambiente ainda é um trabalho em andamento.
  • Precisão no mundo real: O Google Genie 3 ainda não consegue recriar locais do mundo real com perfeita precisão geográfica.

Principais conclusões

O Google Genie 3 representa um avanço significativo na criação de mundos 3D realistas e interativos com IA. Ele pode dar vida a ideias a partir de simples comandos de texto, simular física e até mesmo treinar sistemas de IA em espaços virtuais seguros. 

Embora ainda tenha limites, abre muitas possibilidades para pesquisa, jogos e desenvolvimento de IA. É também um passo crucial em direção a sistemas AGI que podem pensar e aprender mais como os humanos.

Confira nosso repositório no GitHub para descobrir mais sobre IA. Junte-se à nossa comunidade ativa e descubra inovações em setores como IA no varejo e Visão de IA na manufatura. Para começar a usar a visão computacional hoje mesmo, confira nossas opções de licenciamento.

Vamos construir o futuro
da IA juntos!

Comece sua jornada com o futuro do aprendizado de máquina

Comece gratuitamente
Link copiado para a área de transferência