Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
IA de visão

O Google Genie 3 dá vida ao teu mundo 3D com IA

O modelo de mundo de IA Genie 3 da DeepMind converte prompts de texto ou imagem em ambientes 3D. Este avanço marca mais um passo em direção a uma inteligência semelhante à humana.

ABAbirami Vina
4 min read
Google DeepMind Genie 3 a gerar um mundo 3D

No dia 5 de agosto de 2025, o Google DeepMind lançou a sua versão mais recente do modelo Genie, conhecido como Genie 3. É um novo modelo de IA que consegue converter os prompts de texto de um utilizador em ambientes dinâmicos e interativos.

Estes ambientes, ou mundos de IA, tornam possível que o utilizador navegue e interaja com eles em tempo real, tal como num videojogo. Os utilizadores também podem expandir ou modificar o ambiente fornecendo prompts de texto adicionais, permitindo alterações imediatas sem reiniciar a simulação.

O que torna o modelo Genie mais recente do Google particularmente impactante é o facto de poder ser utilizado para treinar agentes de IA. Isto envolve ensinar agentes de IA a tomar decisões ou a executar tarefas utilizando dados e feedback. Ao utilizar um ambiente 3D simulado em vez do mundo real, os investigadores podem evitar muitos dos desafios, custos e riscos do treino no mundo real.

O Google Genie 3 também consegue simular cenários complexos, como testar um carro autónomo a conduzir sob condições meteorológicas adversas ou alguém a planar com um wingsuit através de terrenos montanhosos.

Neste artigo, vamos explorar o Google Genie 3 e as suas capacidades. Vamos começar!

Quadro de uma simulação do Genie 3 mostrando um traje planador

Fig 1. Um frame de uma simulação do Genie 3 a mostrar um voo de wingsuit. (Fonte)

Link to this sectionUma breve história dos modelos Genie do Google#

Antes de mergulharmos nos modelos Genie do Google DeepMind, vamos compreender melhor o que são modelos de mundo.

Os modelos de mundo são sistemas de IA que aprendem regras do mundo real, como a física, o movimento e as relações espaciais, a partir de datasets de texto, imagens, vídeos e movimento. Isto permite-lhes criar cenas realistas e prever como estas evoluem. Os modelos Genie são exemplos desses sistemas.

Aqui tens uma visão rápida dos modelos anteriores do Google Genie que abriram caminho para o Genie 3:

  • Genie 1: O Genie 1, frequentemente referido simplesmente como Google Genie, foi o primeiro modelo de mundo de IA do Google DeepMind capaz de criar ambientes virtuais interativos. Os utilizadores podiam descrever um mundo com texto, imagens, fotografias ou até esboços, e o Genie gerava-o, permitindo-lhes controlar ações dentro da cena. Foi concebido para processar dados de vídeo ao longo do tempo, prever o frame seguinte e traduzir as entradas do utilizador em ações no mundo.

  • Genie 2: Com base nas capacidades do Google Genie, o Genie 2 conseguia criar uma vasta gama de mundos 3D detalhados e interativos. Como modelo de mundo, simulava ambientes virtuais e respondia de forma realista a ações como saltar, nadar ou mover objetos. Treinado numa enorme coleção de vídeos, apresentava interações realistas com objetos e movimentos de personagens muito naturais.

Link to this sectionO que é o Genie 3? O novo modelo de IA do Google#

Baseado nos modelos Genie anteriores, o Genie 3 é o mais recente e avançado da série. Baseia-se particularmente no Genie 2, que conseguia gerar novos ambientes virtuais, e no Veo 3, o mais recente modelo de geração de vídeo do Google DeepMind. O Veo 3 demonstra uma compreensão profunda da física e da forma como os objetos interagem no mundo real.

Enquanto o Veo 3 utiliza um motor de física codificado, o Google Genie 3 ensina-se a si próprio como a física funciona através de um método conhecido como aprendizagem autossupervisionada. É uma técnica de aprendizagem de IA onde um modelo de IA aprende padrões e relações a partir de dados não etiquetados, gerando os seus próprios sinais de aprendizagem.

A capacidade de aprendizagem autossupervisionada do Google Genie 3 é crucial para treinar sistemas de IA, como agentes de IA ou robôs de IA, para lidar com várias tarefas. De facto, os investigadores do Google DeepMind veem o Genie 3 como um passo importante para a criação de Inteligência Artificial Geral (AGI).

Genie 3 simulando o controle de um rover robótico

Fig 2. Um exemplo de utilização do Google Genie 3 para simular o controlo de um rover robótico. (Fonte)

A AGI é uma forma teórica de IA que pode compreender e aprender qualquer tarefa ou assunto e aplicar esse conhecimento em diferentes situações, tal como um humano. Ao contrário dos modelos de inteligência artificial atuais, que são criados para tarefas específicas e têm dificuldade em transferir as suas competências para novos problemas, a AGI seria capaz de se adaptar e aprender numa vasta gama de contextos.

Link to this sectionPrincipais funcionalidades do Google Genie 3 relacionadas com a construção de um mundo de IA#

Aqui estão algumas das principais funcionalidades suportadas pelo Genie 3:

  • Geração de mundos Text-to-3D: Consegue transformar um simples prompt de texto (por exemplo, “um robô a caminhar pela rua”) num ambiente jogável semelhante a 3D com controlos de movimento básicos.

  • Eventos de mundo promptáveis: Os utilizadores podem alterar dinamicamente o ambiente escrevendo novos comandos (por exemplo, adicionar chuva à rua).

  • Memória visual: O Genie 3 consegue lembrar-se de objetos deixados para trás no ambiente e permitir que os voltes a visitar mais tarde, durante cerca de um minuto.

  • Saída de vídeo suave e consistente: Consegue manter uma saída de vídeo de 24 fps (frames por segundo) a uma resolução de 720p, com um envolvimento mais longo em comparação com o Genie 2.

Genie 3 gerando resultados de maior duração do que o Genie 2

Fig 3. O Google Genie 3 consegue gerar saídas que duram mais do que as produzidas pelo Genie 2. (Fonte)

Link to this sectionDa educação aos jogos: Aplicações do Genie 3 do Google DeepMind#

O Google Genie 3 pode tornar a aprendizagem, a investigação e o treino mais imersivos e cativantes. Por exemplo, nas salas de aula, pode dar vida à história, ciência ou geografia, permitindo aos estudantes explorar cidades antigas ou viajar pelo espaço. Da mesma forma, para os programadores de inteligência artificial, oferece mundos virtuais realistas para praticar estratégias, navegar em desafios e melhorar competências de tomada de decisão.

Os cientistas também podem utilizá-lo para criar simulações controladas para testar ideias, estudar ecossistemas ou observar o comportamento de objetos. Outra aplicação interessante é no desenvolvimento de videojogos. Os criadores de jogos podem transformar prompts de texto em mundos de jogo detalhados, acelerando o desenvolvimento e reduzindo a necessidade de grandes equipas.

Jogo interativo colorido projetado usando o Genie 3

Fig 4. Jogos divertidos, coloridos e interativos podem ser desenhados utilizando o Genie 3. (Fonte)

Link to this sectionLimitações do Google Genie 3 como modelo de mundo#

Embora o Google Genie 3 ofereça muitas funcionalidades e benefícios, é também importante considerar os seus inconvenientes.

Aqui estão algumas limitações a considerar:

  • Alcance de ação limitado: Embora possas desencadear muitos eventos no mundo virtual, nem todos são realizados pelo próprio agente. As ações que um agente pode realizar diretamente ainda são limitadas.

  • Interação com outros agentes: A criação de interações realistas entre vários agentes independentes no mesmo ambiente ainda é um trabalho em curso.

  • Precisão no mundo real: O Google Genie 3 ainda não consegue recriar localizações do mundo real com precisão geográfica perfeita.

Link to this sectionPrincipais pontos#

O Google Genie 3 representa um avanço significativo na criação de mundos 3D interativos e realistas com IA. Pode dar vida a ideias a partir de simples prompts de texto, simular a física e até treinar sistemas de IA em espaços virtuais seguros.

Embora ainda tenha limites, abre muitas possibilidades para a investigação, jogos e desenvolvimento de IA. É também um passo crucial para sistemas de AGI que consigam pensar e aprender mais como os humanos.

Consulta o nosso repositório GitHub para descobrires mais sobre IA. Junta-te à nossa comunidade ativa e descobre inovações em setores como a IA no retalho e a IA de visão no fabrico. Para começares hoje com visão computacional, consulta as nossas opções de licenciamento.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática