YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

Google Genie 3がAIで3Dワールドに命を吹き込む

Abirami Vina

4分で読めます

2025年8月15日

DeepMindのGenie 3 AIワールドモデルは、テキストまたは画像のプロンプトを3D環境に変換します。この進歩は、人間のような知能に向けたもう1つのステップとなります。

2025年8月5日、Google DeepMindはGenieモデルの最新バージョンであるGenie 3をリリースしました。これは、ユーザーのテキストプロンプトを動的でインタラクティブな環境に変換できる新しいAIモデルです。 

これらの環境、つまりAIの世界では、ユーザーはビデオゲームのように、リアルタイムでナビゲートして操作できます。ユーザーは、追加のテキストプロンプトを提供して環境を拡張または変更することもでき、シミュレーションを再開せずにオンザフライで変更できます。 

最新のGenie Googleモデルが特に影響力があるのは、AIエージェントのトレーニングに使用できることです。これには、データとフィードバックを使用してAIエージェントに意思決定やタスクの実行を教えることが含まれます。現実世界の代わりにシミュレートされた3D環境を使用することで、研究者は現実世界のトレーニングの課題、コスト、リスクの多くを回避できます。

Google Genie 3は、悪天候の中を走行する自動運転車や、山岳地帯を滑空するウィングスーツなど、複雑なシナリオをシミュレートすることもできます。 

この記事では、Google Genie 3とその機能について解説します。それでは始めましょう!

図1. ウィングスーツが滑空しているGenie 3シミュレーションのフレーム。(出典

GoogleのGenieモデルの簡単な歴史

Google DeepMindのGenieモデルについて掘り下げる前に、ワールドモデルとは何かをより深く理解しましょう。 

ワールドモデルは、テキスト、画像、動画、および動きのデータセットから、物理、運動、空間関係といった現実世界のルールを学習するAIシステムです。これにより、現実的なシーンを作成し、それらがどのように進化するかを予測できます。Genieモデルは、そのようなシステムの例です。

Genie 3の道を切り開いた、初期のGoogle Genieモデルを簡単にご紹介します。

  • Genie 1: Genie 1は、しばしば単にGoogle Genieと呼ばれ、インタラクティブな仮想環境を作成できるGoogle DeepMind初のAIワールドモデルでした。ユーザーはテキスト、画像、写真、またはスケッチで世界を記述でき、Genieはそれを生成し、シーン内のアクションを制御できるようにしました。時間の経過とともにビデオデータを処理し、次のフレームを予測し、ユーザー入力を世界内のアクションに変換するように設計されました。
  • Genie 2: Google Genieの機能を基に構築されたGenie 2は、広範囲にわたる詳細なインタラクティブ3Dワールドを作成できました。ワールドモデルとして、仮想環境をシミュレートし、ジャンプ、水泳、またはオブジェクトの移動などのアクションに現実的に応答しました。大規模なビデオコレクションでトレーニングされ、現実的なオブジェクトのインタラクションと、本物そっくりのキャラクターの動きが特徴でした。

Genie 3とは?Googleの新しいAIモデル

以前のGenieモデルを基盤として、Genie 3はシリーズ最新かつ最先端です。特に、新しい仮想環境を生成できるGenie 2と、Google DeepMindの最新ビデオ生成モデルであるVeo 3を基に構築されています。Veo 3は、物理学と現実世界でのオブジェクトの相互作用について深い理解を示しています。

Veo 3はハードコードされた物理エンジンを使用していますが、Google Genie 3は自己教師あり学習と呼ばれる方法を使用して、物理がどのように機能するかを自ら学習します。これは、AIモデルが独自の学習シグナルを生成することにより、ラベルなしデータからパターンと関係を学習するAI学習テクニックです。 

Google Genie 3の自己教師あり学習能力は、AIエージェントやAIロボットなどのAIシステムがさまざまなタスクを処理できるようにトレーニングする上で非常に重要です。実際、Google DeepMindの研究者たちは、Genie 3を汎用人工知能(AGI)の創造に向けた重要な一歩と捉えています。 

図2。Google Genie 3を使用して、ロボットローバーの制御をシミュレートする例。(出典

AGIは、あらゆるタスクや主題を理解して学習し、その知識を人間のようにさまざまな状況に適用できる、AIの理論的な形態です。特定のタスクのために構築され、そのスキルを新しい問題に転送するのに苦労する今日の人工知能モデルとは異なり、AGIは幅広いコンテキストで適応して学習することができます。

AI世界構築に関連するGoogle Genie 3の主な機能

Genie 3でサポートされている主な機能を以下に示します。

  • テキストから3Dワールド生成: 簡単なテキストプロンプト(例:「通りを歩くロボット」)を、基本的な移動コントロールを備えたプレイ可能な3Dのような環境に変換できます。
  • プロンプト可能な世界のイベント: ユーザーは、新しいコマンドを入力して環境を動的に変更できます(例:通りに雨を追加)。
  • 視覚的記憶: Genie 3は、環境に残されたオブジェクトを記憶し、後で再訪できるようにします(約1分間)。
  • スムーズで一貫したビデオ出力: Genie 2と比較して、より長いエンゲージメントで、720p解像度で24 fps(フレーム/秒)のビデオ出力を維持できます。
図3. Google Genie 3は、Genie 2よりも長持ちする出力を生成できます。

教育からゲームまで:Google DeepMindのGenie 3の応用

Google Genie 3は、学習、研究、トレーニングをより没入型で魅力的なものにすることができます。たとえば、教室では、学生が古代都市を探索したり、宇宙を旅したりできるようにすることで、歴史、科学、地理を生き生きとさせることができます。同様に、人工知能開発者にとっては、戦略を実践し、課題を乗り越え、意思決定スキルを向上させるための現実的な仮想世界を提供します。

科学者はまた、アイデアをテストしたり、生態系を研究したり、オブジェクトの挙動を観察したりするための制御されたシミュレーションを作成するためにもそれを使用できます。もう1つの興味深いアプリケーションは、ビデオゲーム開発です。ゲーム開発者は、テキストプロンプトを詳細なゲーム世界に変え、開発をスピードアップし、大規模なチームの必要性を減らすことができます。

図4. Genie 3を使用して、楽しく、カラフルで、インタラクティブなゲームを設計できます。(出典

ワールドモデルとしてのGoogle Genie 3の限界

Google Genie 3は多くの機能と利点を提供しますが、その欠点も考慮することが重要です。 

考慮すべきいくつかの制限事項を以下に示します。

  • アクション範囲の制限: 仮想世界で多くのイベントをトリガーできますが、それらのすべてがエージェント自身によって実行されるわけではありません。エージェントが直接実行できるアクションはまだ限られています。
  • 他のエージェントとのインタラクション:同じ環境内の複数の独立したエージェント間で現実的なインタラクションを作成することは、まだ進行中の作業です。
  • 現実世界の精度:Google Genie 3は、現実世界の場所を完璧な地理的精度で再現することはまだできません。

主なポイント

Google Genie 3は、AIを活用してリアルでインタラクティブな3Dワールドを構築する上で、大きな進歩を遂げています。簡単なテキストプロンプトからアイデアを具現化し、物理演算をシミュレートし、安全な仮想空間でAIシステムをトレーニングすることも可能です。 

まだ限界はありますが、研究、ゲーム、AI開発に多くの可能性が開かれています。また、人間のように考え、学習できるAGIシステムに向けた重要なステップでもあります。

AIに関する詳細については、GitHubリポジトリをご覧ください。活発なコミュニティに参加して、小売業におけるAI製造業におけるVision AIなどの分野におけるイノベーションを発見してください。今日からコンピュータビジョンを始めるには、ライセンスオプションをご確認ください。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました