O modelo mundial de IA Genie 3 da DeepMind converte prompts de texto ou imagem em ambientes 3D. Este avanço marca mais um passo em direção à inteligência semelhante à humana.
.webp)
O modelo mundial de IA Genie 3 da DeepMind converte prompts de texto ou imagem em ambientes 3D. Este avanço marca mais um passo em direção à inteligência semelhante à humana.
Em 5 de agosto de 2025, o Google DeepMind lançou a sua versão mais recente do modelo Genie, conhecido como Genie 3. É um novo modelo de IA que pode converter as instruções de texto de um utilizador em ambientes dinâmicos e interativos.
Esses ambientes, ou mundos de IA, possibilitam que o usuário navegue e interaja com eles em tempo real, como em um videogame. Os usuários também podem expandir ou modificar o ambiente, fornecendo prompts de texto adicionais, permitindo alterações em tempo real sem reiniciar a simulação.
O que torna o modelo Genie Google mais recente particularmente impactante é que ele pode ser usado para treinar agentes de IA. Isso envolve ensinar agentes de IA a tomar decisões ou realizar tarefas usando dados e feedback. Ao usar um ambiente 3D simulado em vez do mundo real, os pesquisadores podem evitar muitos dos desafios, custos e riscos do treino no mundo real.
O Google Genie 3 também pode simular cenários complexos, como testar um carro autônomo dirigindo em condições climáticas adversas ou um wingsuit deslizando por terrenos montanhosos.
Neste artigo, exploraremos o Google Genie 3 e suas capacidades. Vamos começar!
Antes de nos aprofundarmos nos modelos Genie do Google DeepMind, vamos entender melhor o que são modelos mundiais.
Os modelos mundiais são sistemas de IA que aprendem regras do mundo real, como física, movimento e relações espaciais, a partir de texto, imagens, vídeos e conjuntos de dados de movimento. Isto permite-lhes criar cenas realistas e prever como elas evoluem. Os modelos Genie são exemplos de tais sistemas.
Aqui está um rápido vislumbre dos modelos Google Genie anteriores que abriram caminho para o Genie 3:
Com base nos modelos Genie anteriores, o Genie 3 é o mais recente e avançado da série. Ele se baseia particularmente no Genie 2, que poderia gerar novos ambientes virtuais, e no Veo 3, o modelo de geração de vídeo mais recente do Google DeepMind. O Veo 3 demonstra uma profunda compreensão da física e de como os objetos interagem no mundo real.
Enquanto o Veo 3 usa um motor de física codificado, o Google Genie 3 ensina a si mesmo como a física funciona usando um método conhecido como aprendizado auto-supervisionado. É uma técnica de aprendizado de IA onde um modelo de IA aprende padrões e relacionamentos de dados não rotulados, gerando seus próprios sinais de aprendizado.
A capacidade de aprendizado auto supervisionado do Google Genie 3 é crucial para treinar sistemas de IA, como agentes de IA ou robôs de IA, para lidar com várias tarefas. De fato, pesquisadores do Google DeepMind veem o Genie 3 como um passo importante para a criação da Inteligência Artificial Geral (AGI).
AGI é uma forma teórica de IA que pode entender e aprender qualquer tarefa ou assunto e aplicar esse conhecimento em diferentes situações, muito parecido com um humano. Ao contrário dos modelos de inteligência artificial de hoje, que são construídos para tarefas específicas e lutam para transferir suas habilidades para novos problemas, a AGI seria capaz de se adaptar e aprender em uma ampla gama de contextos.
Aqui estão alguns dos principais recursos suportados pelo Genie 3:
O Google Genie 3 pode tornar o aprendizado, a pesquisa e o treinamento mais imersivos e envolventes. Por exemplo, em salas de aula, pode dar vida à história, à ciência ou à geografia, permitindo que os alunos explorem cidades antigas ou viajem pelo espaço. Da mesma forma, para desenvolvedores de inteligência artificial, oferece mundos virtuais realistas para praticar estratégias, superar desafios e aprimorar habilidades de tomada de decisão.
Os cientistas também podem usá-lo para criar simulações controladas para testar ideias, estudar ecossistemas ou observar o comportamento de objetos. Outra aplicação interessante é no desenvolvimento de jogos de vídeo. Os desenvolvedores de jogos podem transformar prompts de texto em mundos de jogos detalhados, acelerando o desenvolvimento e reduzindo a necessidade de grandes equipes.
Embora o Google Genie 3 ofereça muitos recursos e benefícios, também é importante considerar as suas desvantagens.
Aqui estão algumas limitações a serem consideradas:
O Google Genie 3 representa um avanço significativo na criação de mundos 3D realistas e interativos com IA. Ele pode dar vida a ideias a partir de simples comandos de texto, simular física e até mesmo treinar sistemas de IA em espaços virtuais seguros.
Embora ainda tenha limites, abre muitas possibilidades para pesquisa, jogos e desenvolvimento de IA. É também um passo crucial em direção a sistemas AGI que podem pensar e aprender mais como os humanos.
Confira nosso repositório no GitHub para descobrir mais sobre IA. Junte-se à nossa comunidade ativa e descubra inovações em setores como IA no varejo e Visão de IA na manufatura. Para começar a usar a visão computacional hoje mesmo, confira nossas opções de licenciamento.