Yolo 深圳
深セン
今すぐ参加

Google Genie 3、AIで3D世界に命を吹き込む

Abirami Vina

4分で読めます

2025年8月15日

DeepMindのGenie 3 AIワールドモデルは、テキストまたは画像のプロンプトを3D環境に変換します。この進歩は、人間のような知能に向けたもう1つのステップとなります。

2025年8月5日、Google ジーニーの最新バージョン「ジーニー3」を発表した。これは、ユーザーのテキストプロンプトをダイナミックでインタラクティブな環境に変換できる新しいAIモデルである。 

これらの環境、つまりAIの世界では、ユーザーはビデオゲームのように、リアルタイムでナビゲートして操作できます。ユーザーは、追加のテキストプロンプトを提供して環境を拡張または変更することもでき、シミュレーションを再開せずにオンザフライで変更できます。 

Google 最新モデル「ジーニー」が特にインパクトがあるのは、AIエージェントのトレーニングに使えることだ。これは、データとフィードバックを使ってAIエージェントに意思決定やタスクの実行を教えることを含む。現実世界ではなく、シミュレートされた3D環境を使用することで、研究者は現実世界でのトレーニングの課題、コスト、リスクの多くを回避することができる。

Google Genie 3は、悪天候の中を走る自律走行車のテストや、山岳地帯を滑空するウィングスーツのテストなど、複雑なシナリオもシミュレートできる。 

この記事では、Google Genie 3とその機能についてご紹介します。さっそく始めよう!

図1. ウィングスーツが滑空しているGenie 3シミュレーションのフレーム。(出典

GoogleGenieモデルの簡単な歴史

Google DeepMindのGenieモデルに飛び込む前に、世界モデルとは何かについて理解を深めておこう。 

ワールドモデルは、テキスト、画像、動画、および動きのデータセットから、物理、運動、空間関係といった現実世界のルールを学習するAIシステムです。これにより、現実的なシーンを作成し、それらがどのように進化するかを予測できます。Genieモデルは、そのようなシステムの例です。

ここでは、Genie 3への道を開いたGoogle Genieの初期モデルを簡単に紹介しよう:

  • Genie 1:Genie 1は、単にGoogle Genieと呼ばれることもあるが、Google DeepMindの最初のAIワールドモデルで、インタラクティブな仮想環境を作成することができた。ユーザーは、テキスト、画像、写真、あるいはスケッチで世界を描写することができ、Genieはそれを生成し、シーン内のアクションをコントロールすることができる。Genieはビデオデータを経時的に処理し、次のフレームを予測し、ユーザーの入力をワールド内のアクションに変換するように設計されている。
  • Genie 2: Google Genieの機能を発展させたGenie 2は、詳細でインタラクティブな3D世界を幅広く作成することができた。ワールドモデルとして、仮想環境をシミュレートし、ジャンプ、水泳、オブジェクトの移動などのアクションにリアルに反応する。膨大なビデオコレクションで訓練されたGenie 2は、リアルなオブジェクトのインタラクションやリアルなキャラクターの動きを特徴としています。

Genie 3とは?Google新しいAIモデル

初期のGenieモデルをベースにしたGenie 3は、シリーズの最新かつ最も高度なものである。特に、新しい仮想環境を生成できるGenie 2と、Google DeepMindの最新映像生成モデルであるVeo 3の上に構築されている。Veo 3は、物理学と現実世界で物体がどのように相互作用するかを深く理解している。

Veo 3がハードコーディングされた物理エンジンを使用しているのに対し、Google Genie 3は、自己教師あり学習として知られる方法を使用して物理学の仕組みを学習する。これはAIの学習手法のひとつで、AIモデルが自ら学習シグナルを生成することで、ラベル付けされていないデータからパターンと関係を学習するものだ。 

Google Genie 3の自己教師付き学習機能は、AIエージェントやAIロボットなどのAIシステムに様々なタスクを処理させるためのトレーニングを行う上で極めて重要である。実際、Google DeepMindの研究者たちは、Genie 3を人工知能(AGI)の創造に向けた重要な一歩と見なしている。 

図2.Google Genie 3を使ってロボット探査機を制御するシミュレーションの例。出典

AGIは、あらゆるタスクや主題を理解して学習し、その知識を人間のようにさまざまな状況に適用できる、AIの理論的な形態です。特定のタスクのために構築され、そのスキルを新しい問題に転送するのに苦労する今日の人工知能モデルとは異なり、AGIは幅広いコンテキストで適応して学習することができます。

AI世界の構築に関連するGoogle Genie 3の主な機能

Genie 3でサポートされている主な機能を以下に示します。

  • テキストから3Dワールド生成: 簡単なテキストプロンプト(例:「通りを歩くロボット」)を、基本的な移動コントロールを備えたプレイ可能な3Dのような環境に変換できます。
  • プロンプト可能な世界のイベント: ユーザーは、新しいコマンドを入力して環境を動的に変更できます(例:通りに雨を追加)。
  • 視覚的記憶: Genie 3は、環境に残されたオブジェクトを記憶し、後で再訪できるようにします(約1分間)。
  • スムーズで一貫したビデオ出力: Genie 2と比較して、より長いエンゲージメントで、720p解像度で24 fps(フレーム/秒)のビデオ出力を維持できます。
図3.Google Genie 3は、Genie 2の出力よりも長持ちする出力を生成できる(出典)。

教育からゲームまで:Google ジーニー3の応用例

Google Genie 3は、学習、研究、トレーニングをより没入的で魅力的なものにします。例えば、教室では、生徒が古代都市を探検したり、宇宙を旅したりすることで、歴史、科学、地理に命を吹き込むことができます。同様に、人工知能の開発者にとっては、戦略を練習し、課題をナビゲートし、意思決定スキルを向上させるための現実的な仮想世界を提供します。

科学者はまた、アイデアをテストしたり、生態系を研究したり、オブジェクトの挙動を観察したりするための制御されたシミュレーションを作成するためにもそれを使用できます。もう1つの興味深いアプリケーションは、ビデオゲーム開発です。ゲーム開発者は、テキストプロンプトを詳細なゲーム世界に変え、開発をスピードアップし、大規模なチームの必要性を減らすことができます。

図4. Genie 3を使用して、楽しく、カラフルで、インタラクティブなゲームを設計できます。(出典

世界モデルとしてのGoogle Genie 3の限界

Google Genie 3には多くの機能と利点があるが、欠点を考慮することも重要である。 

考慮すべきいくつかの制限事項を以下に示します。

  • アクション範囲の制限: 仮想世界で多くのイベントをトリガーできますが、それらのすべてがエージェント自身によって実行されるわけではありません。エージェントが直接実行できるアクションはまだ限られています。
  • 他のエージェントとのインタラクション:同じ環境内の複数の独立したエージェント間で現実的なインタラクションを作成することは、まだ進行中の作業です。
  • 現実世界の正確さ: Google Genie 3は、まだ現実世界の場所を完璧な地理的精度で再現することはできない。

主なポイント

Google Genie 3は、AIによるリアルでインタラクティブな3D世界の創造において大きな進歩を遂げた。シンプルなテキストプロンプトからアイデアを実現し、物理シミュレーションを行い、安全な仮想空間でAIシステムを訓練することもできる。 

まだ限界はありますが、研究、ゲーム、AI開発に多くの可能性が開かれています。また、人間のように考え、学習できるAGIシステムに向けた重要なステップでもあります。

AIに関する詳細については、GitHubリポジトリをご覧ください。活発なコミュニティに参加して、小売業におけるAI製造業におけるVision AIなどの分野におけるイノベーションを発見してください。今日からコンピュータビジョンを始めるには、ライセンスオプションをご確認ください。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる