Google Genie 3、AIで3D世界に命を吹き込む

アビラミ・ヴィナ

4 min read

2025年8月15日

ディープマインドのAIワールドモデル「Genie 3」は、テキストや画像のプロンプトを3D環境に変換する。この進歩は、人間のような知性への新たな一歩となる。

2025年8月5日、グーグル・ディープマインドはジーニーの最新バージョン「ジーニー3」を発表した。これは、ユーザーのテキストプロンプトをダイナミックでインタラクティブな環境に変換できる新しいAIモデルである。 

これらの環境(AIワールド)は、ビデオゲームのように、ユーザーがリアルタイムでナビゲートし、対話することを可能にする。また、ユーザーは、追加のテキストプロンプトを提供することによって、シミュレーションを再起動することなく、その場で環境を拡張したり変更したりすることができます。 

グーグルの最新モデル「ジーニー」が特にインパクトがあるのは、AIエージェントのトレーニングに使えることだ。これは、データとフィードバックを使ってAIエージェントに意思決定やタスクの実行を教えることを含む。現実世界ではなく、シミュレートされた3D環境を使用することで、研究者は現実世界でのトレーニングの課題、コスト、リスクの多くを回避することができる。

Google Genie 3は、悪天候の中を走る自律走行車のテストや、山岳地帯を滑空するウィングスーツのテストなど、複雑なシナリオもシミュレートできる。 

この記事では、Google Genie 3とその機能についてご紹介します。さっそく始めよう!

図1.ウイングスーツが滑空するGenie 3シミュレーションのフレーム。出典

GoogleのGenieモデルの簡単な歴史

Google DeepMindのGenieモデルに飛び込む前に、世界モデルとは何かについて理解を深めておこう。 

ワールドモデルとは、テキスト、画像、動画、動きのデータセットから、物理、動き、空間関係などの現実世界のルールを学習するAIシステムである。これにより、リアルなシーンを作成し、それらがどのように進化するかを予測することができる。Genieモデルはそのようなシステムの一例である。

ここでは、Genie 3への道を開いたGoogle Genieの初期モデルを簡単に紹介しよう:

  • Genie 1:Genie 1は、単にGoogle Genieと呼ばれることも多いが、Google DeepMindの最初のAIワールドモデルで、インタラクティブな仮想環境を作成することができた。ユーザーは、テキスト、画像、写真、あるいはスケッチで世界を描写することができ、Genieはそれを生成し、シーン内のアクションをコントロールすることができる。Genieはビデオデータを経時的に処理し、次のフレームを予測し、ユーザーの入力をワールド内のアクションに変換するように設計されている。
  • Genie 2:Google Genieの機能を発展させたGenie 2は、詳細でインタラクティブな3D世界を幅広く作成することができた。ワールドモデルとして、仮想環境をシミュレートし、ジャンプ、水泳、オブジェクトの移動などのアクションにリアルに反応する。膨大なビデオコレクションで訓練されたGenie 2は、リアルなオブジェクトのインタラクションやリアルなキャラクターの動きを特徴としています。

Genie 3とは?グーグルの新しいAIモデル

初期のGenieモデルをベースにしたGenie 3は、シリーズの最新かつ最も高度なものである。特に、新しい仮想環境を生成できるGenie 2と、Google DeepMindの最新映像生成モデルであるVeo 3の上に構築されている。Veo 3は、物理学と現実世界で物体がどのように相互作用するかを深く理解している。

Veo 3がハードコーディングされた物理エンジンを使用しているのに対し、Google Genie 3は、自己教師あり学習として知られる方法を使用して物理学の仕組みを学習する。これはAIの学習手法のひとつで、AIモデルが自ら学習シグナルを生成することで、ラベル付けされていないデータからパターンと関係を学習するものだ。 

Google Genie 3の自己教師付き学習機能は、AIエージェントやAIロボットなどのAIシステムに様々なタスクを処理させるためのトレーニングを行う上で極めて重要である。実際、Google DeepMindの研究者たちは、Genie 3を人工知能(AGI)の創造に向けた重要な一歩と見なしている。 

図2.Google Genie 3を使ってロボット探査機を制御するシミュレーションの例。出典

AGIとは、人間のようにあらゆるタスクや対象を理解・学習し、その知識をさまざまな状況に適用できるAIの理論的形態である。特定のタスクのために構築され、そのスキルを新しい問題に移行するのに苦労する今日の人工知能モデルとは異なり、AGIは幅広い文脈に適応し、学習することができるだろう。

AI世界の構築に関連するGoogle Genie 3の主な機能

Genie 3がサポートする主な機能をいくつか紹介しよう:

  • テキストから3Dへの世界生成:簡単なテキストプロンプト(例えば「ロボットが通りを歩いている」)を、基本的な動きを制御できるプレイアブルな3Dライクな環境に変えることができる。
  • プロンプト可能なワールドイベント:ユーザーは新しいコマンドを入力することで、ダイナミックに環境を変化させることができる(例えば、通りに雨を降らせる)。
  • 視覚記憶:Genie 3は、環境に残されたオブジェクトを記憶し、後でそれらを再訪することができます。
  • スムーズで安定したビデオ出力:Genie 2に比べ、720p解像度で24fps(フレーム/秒)のビデオ出力を維持し、より長いエンゲージメントを実現。
図3.Google Genie 3は、Genie 2の出力よりも長持ちする出力を生成できる(出典)。

教育からゲームまで:グーグル・ディープマインドのジーニー3の応用例

Google Genie 3は、学習、研究、トレーニングをより没入的で魅力的なものにします。例えば、教室では、生徒が古代都市を探検したり、宇宙を旅したりすることで、歴史、科学、地理に命を吹き込むことができます。同様に、人工知能の開発者にとっては、戦略を練習し、課題をナビゲートし、意思決定スキルを向上させるための現実的な仮想世界を提供します。

科学者はまた、アイデアをテストしたり、生態系を研究したり、物体の挙動を観察したりするために、制御されたシミュレーションを作成するために使用することもできる。もうひとつの興味深い用途は、ビデオゲーム開発である。ゲーム開発者は、テキストプロンプトを詳細なゲーム世界に変えることで、開発をスピードアップし、大規模なチームの必要性を減らすことができる。

図4.楽しく、カラフルで、インタラクティブなゲームがGenie 3を使ってデザインできる。

世界モデルとしてのGoogle Genie 3の限界

Google Genie 3には多くの機能と利点があるが、欠点を考慮することも重要である。 

以下は、考慮すべき制限事項である:

  • 行動範囲が限定されている:仮想世界で多くのイベントを引き起こすことができますが、そのすべてがエージェント自身によって実行されるわけではありません。エージェントが直接実行できるアクションはまだ限られています。
  • 他のエージェントとの相互作用:同じ環境における複数の独立したエージェント間の現実的な相互作用の作成は、まだ未完成である。
  • 現実世界の正確さ:Google Genie 3は、まだ現実世界の場所を完璧な地理的精度で再現することはできない。

要点

Google Genie 3は、AIによるリアルでインタラクティブな3D世界の創造において大きな進歩を遂げた。シンプルなテキストプロンプトからアイデアを実現し、物理シミュレーションを行い、安全な仮想空間でAIシステムを訓練することもできる。 

まだ限界はあるが、研究、ゲーム、AI開発において多くの可能性が開かれる。また、より人間のように考え、学習できるAGIシステムに向けた重要な一歩でもある。

GitHubリポジトリで、AIについてもっと知ってください。私たちの活発なコミュニティに参加して、小売業におけるAIや 製造業におけるビジョンAIのような分野におけるイノベーションを発見してください。今すぐコンピュータビジョンを始めるには、ライセンスオプションをご覧ください。

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう

無料で始める
クリップボードにコピーされたリンク