O modelo mundial de IA Genie 3 da DeepMind converte comandos de texto ou imagem em ambientes 3D. Este avanço marca mais um passo em direção a uma inteligência semelhante à humana.
.webp)
O modelo mundial de IA Genie 3 da DeepMind converte comandos de texto ou imagem em ambientes 3D. Este avanço marca mais um passo em direção a uma inteligência semelhante à humana.
Em 5 de agosto de 2025, a Google DeepMind lançou a sua última versão do modelo Genie, conhecido como Genie 3. Trata-se de um novo modelo de IA que pode converter as instruções de texto de um utilizador em ambientes dinâmicos e interactivos.
Estes ambientes, ou mundos de IA, permitem que o utilizador navegue e interaja com eles em tempo real, tal como num jogo de vídeo. Os utilizadores podem também expandir ou modificar o ambiente, fornecendo instruções de texto adicionais, permitindo alterações em tempo real sem reiniciar a simulação.
O que torna o mais recente modelo Genie Google particularmente impactante é o facto de poder ser utilizado para treinar agentes de IA. Isto implica ensinar os agentes de IA a tomar decisões ou a executar tarefas utilizando dados e feedback. Ao utilizar um ambiente 3D simulado em vez do mundo real, os investigadores podem evitar muitos dos desafios, custos e riscos da formação no mundo real.
O Google Genie 3 também pode simular cenários complexos, como testar um carro autónomo a conduzir em condições meteorológicas adversas ou um fato de asa a planar em terreno montanhoso.
Neste artigo, vamos explorar o Google Genie 3 e as suas capacidades. Vamos começar!
Antes de nos debruçarmos sobre os modelos Genie do Google DeepMind, vamos compreender melhor o que são modelos mundiais.
Os modelos de mundo são sistemas de IA que aprendem regras do mundo real, como a física, o movimento e as relações espaciais, a partir de textos, imagens, vídeos e conjuntos de dados de movimento. Isto permite-lhes criar cenas realistas e prever a sua evolução. Os modelos Genie são exemplos deste tipo de sistemas.
Aqui está uma breve descrição dos modelos anteriores do Google Genie que abriram caminho para o Genie 3:
Com base nos modelos Genie anteriores, o Genie 3 é o mais recente e mais avançado da série. Baseia-se particularmente no Genie 2, que pode gerar novos ambientes virtuais, e no Veo 3, o mais recente modelo de geração de vídeo da Google DeepMind. O Veo 3 demonstra uma profunda compreensão da física e da forma como os objectos interagem no mundo real.
Enquanto o Veo 3 utiliza um motor de física codificado, o Google Genie 3 ensina a si próprio como funciona a física utilizando um método conhecido como aprendizagem auto-supervisionada. Trata-se de uma técnica de aprendizagem de IA em que um modelo de IA aprende padrões e relações a partir de dados não rotulados, gerando os seus próprios sinais de aprendizagem.
A capacidade de aprendizagem auto-supervisionada do Google Genie 3 é crucial para o treino de sistemas de IA, como agentes de IA ou robôs de IA, para lidar com várias tarefas. De facto, os investigadores da Google DeepMind vêem o Genie 3 como um passo importante para a criação da Inteligência Artificial Geral (AGI).
A AGI é uma forma teórica de IA que pode compreender e aprender qualquer tarefa ou assunto e aplicar esse conhecimento em diferentes situações, tal como um ser humano. Ao contrário dos actuais modelos de inteligência artificial, que são concebidos para tarefas específicas e têm dificuldade em transferir as suas competências para novos problemas, a AGI seria capaz de se adaptar e aprender numa vasta gama de contextos.
Aqui estão algumas das principais caraterísticas suportadas pelo Genie 3:
O Google Genie 3 pode tornar a aprendizagem, a investigação e a formação mais imersivas e envolventes. Por exemplo, nas salas de aula, pode dar vida à história, à ciência ou à geografia, permitindo que os alunos explorem cidades antigas ou viajem pelo espaço. Do mesmo modo, para os programadores de inteligência artificial, oferece mundos virtuais realistas para praticar estratégias, enfrentar desafios e melhorar as capacidades de tomada de decisões.
Os cientistas também podem utilizá-lo para criar simulações controladas para testar ideias, estudar ecossistemas ou observar o comportamento de objectos. Outra aplicação interessante é o desenvolvimento de jogos de vídeo. Os criadores de jogos podem transformar mensagens de texto em mundos de jogo detalhados, acelerando o desenvolvimento e reduzindo a necessidade de grandes equipas.
Embora o Google Genie 3 ofereça muitas funcionalidades e vantagens, também é importante ter em conta as suas desvantagens.
Eis algumas limitações a considerar:
O Google Genie 3 representa um avanço significativo na criação de mundos 3D realistas e interactivos com IA. Pode dar vida a ideias a partir de simples comandos de texto, simular a física e até treinar sistemas de IA em espaços virtuais seguros.
Embora ainda tenha limites, abre muitas possibilidades para a investigação, os jogos e o desenvolvimento da IA. É também um passo crucial para os sistemas de inteligência artificial que podem pensar e aprender mais como os humanos.
Consulte o nosso repositório GitHub para saber mais sobre a IA. Junte-se à nossa comunidade ativa e descubra inovações em sectores como a IA no sector do retalho e a IA de visão no fabrico. Para começar a usar a visão computacional hoje mesmo, confira nossas opções de licenciamento.