Google Genie 3はAIであなたの3Dワールドに命を吹き込みます
DeepMindのGenie 3 AIワールドモデルは、テキストまたは画像のプロンプトを3D環境に変換します。この進歩は、人間のような知能に向けたまた一歩となるものです。

2025年8月5日、Google DeepMindはGenieモデルの最新バージョンであるGenie 3を発表しました。これは、ユーザーのテキストプロンプトを動的でインタラクティブな環境に変換できる新しいAIモデルです。
これらの環境(AIワールド)では、ユーザーはビデオゲームのようにリアルタイムで操作やインタラクションを行うことができます。また、ユーザーは追加のテキストプロンプトを入力することで環境を拡張・修正でき、シミュレーションを再起動することなく、その場で変更を加えることが可能です。
最新のGenie Googleモデルが特に影響力を持つ理由は、それがAIエージェントの学習に使用できる点です。これには、データとフィードバックを使用してAIエージェントに意思決定やタスクの実行を教え込むことが含まれます。現実世界の代わりにシミュレートされた3D環境を使用することで、研究者は現実世界での学習に伴う多くの課題、コスト、リスクを回避できます。
Google Genie 3は、悪天候下を走行する自動運転車のテストや、山岳地帯を滑空するウィングスーツなど、複雑なシナリオのシミュレーションも可能です。
本記事では、Google Genie 3とその機能について探っていきます。それでは始めましょう!

図1. ウィングスーツでの滑空を示すGenie 3シミュレーションのフレーム。(ソース)
Link to this sectionGoogleのGenieモデルの簡単な歴史#
Google DeepMindのGenieモデルについて掘り下げる前に、まずはワールドモデルとは何かをより深く理解しましょう。
ワールドモデルとは、テキスト、画像、動画、および動作のデータセットから、物理法則、動き、空間関係といった現実世界のルールを学習するAIシステムのことです。これにより、リアルなシーンを作成し、その進化を予測することが可能になります。Genieモデルは、こうしたシステムの一例です。
Genie 3への道を切り開いた、初期のGoogle Genieモデルを簡単に紹介します。
-
Genie 1: 単にGoogle Genieとも呼ばれるGenie 1は、インタラクティブな仮想環境を作成できるGoogle DeepMind初のAIワールドモデルです。ユーザーがテキスト、画像、写真、あるいはスケッチで世界を記述すると、Genieがそれを生成し、シーン内のアクションを制御できるようにしました。これは動画データを経時的に処理し、次のフレームを予測し、ユーザーの入力をワールド内のアクションに変換するように設計されていました。
-
Genie 2: Google Genieの機能を基盤として、Genie 2は詳細でインタラクティブな3Dワールドを幅広く作成できるようになりました。ワールドモデルとして、仮想環境をシミュレートし、ジャンプ、水泳、物体の移動といったアクションに対してリアルに反応しました。膨大な動画コレクションで学習されており、リアルな物体同士の相互作用や生き生きとしたキャラクターの動きが特徴でした。
Link to this sectionGenie 3とは何か?Googleの新しいAIモデル#
これまでのGenieモデルを基盤とするGenie 3は、本シリーズの中で最も新しく高度なモデルです。特に、新しい仮想環境を生成できるGenie 2と、Google DeepMindの最新動画生成モデルであるVeo 3をベースとしています。Veo 3は、物理法則と現実世界での物体の相互作用についての深い理解を示しています。
Veo 3がハードコードされた物理エンジンを使用する一方で、Google Genie 3は自己教師あり学習という手法を用いて、物理法則がどのように機能するかを自ら学習します。これは、AIモデルがラベルなしデータから生成された独自の学習信号を使用して、パターンや関係性を学習するAI学習技術です。
Google Genie 3の自己教師あり学習能力は、AIエージェントやAIロボットのようなAIシステムがさまざまなタスクに対応するための学習において極めて重要です。実際、Google DeepMindの研究者は、Genie 3を人工汎用知能 (AGI)の実現に向けた重要なステップと見なしています。

図2. Google Genie 3を使用してロボットローバーの制御をシミュレートする例。(ソース)
AGIは、人間のようにあらゆるタスクや主題を理解・学習し、その知識をさまざまな状況に適用できる理論上のAI形態です。特定のタスクのために構築され、新しい問題へのスキル移転に苦慮する今日のAIモデルとは異なり、AGIは幅広いコンテキストで適応し学習できると考えられています。
Link to this sectionAIワールド構築に関連するGoogle Genie 3の主な機能#
Genie 3がサポートする主な機能をいくつか紹介します。
-
テキストから3Dワールドへの生成: 単純なテキストプロンプト(例:「通りを歩くロボット」)を、基本的な移動操作を備えたプレイ可能な3D風の環境に変換できます。
-
プロンプト可能なワールドイベント: ユーザーは新しいコマンドを入力することで(例:「通りに雨を降らせる」)、環境を動的に変更できます。
-
視覚的記憶: Genie 3は環境内に残された物体を記憶し、後でそれらを再訪できるようにします。この記憶は約1分間持続します。
-
スムーズで一貫性のある動画出力: 720pの解像度で24 fps (1秒あたりのフレーム数)の動画出力を維持でき、Genie 2よりも長いエンゲージメントが可能です。

図3. Google Genie 3は、Genie 2よりも長い時間持続する出力を生成できます。(ソース)
Link to this section教育からゲームまで:Google DeepMindのGenie 3のアプリケーション#
Google Genie 3は、学習、研究、トレーニングをより没入感があり魅力的なものにできます。例えば、教室では歴史、科学、地理を、古代都市の探索や宇宙への旅を通じてリアルに体験させることができます。同様に、AI開発者にとっては、戦略を練習し、課題を克服し、意思決定スキルを向上させるためのリアルな仮想世界を提供します。
科学者はこれを使用して、アイデアのテスト、生態系の研究、または物体の行動を観察するための制御されたシミュレーションを作成することもできます。もう一つの興味深い用途は、ビデオゲーム開発です。ゲーム開発者はテキストプロンプトから詳細なゲームワールドを作成でき、開発を加速させ、大規模なチームの必要性を減らすことができます。

図4. Genie 3を使用すれば、楽しくカラフルでインタラクティブなゲームを設計できます。(ソース)
Link to this sectionワールドモデルとしてのGoogle Genie 3の制限#
Google Genie 3には多くの機能と利点がありますが、その欠点を考慮することも重要です。
考慮すべき制限事項をいくつか挙げます。
-
限られたアクション範囲: 仮想世界では多くのイベントをトリガーできますが、そのすべてがエージェント自身によって実行されるわけではありません。エージェントが直接実行できるアクションはまだ限られています。
-
他のエージェントとのインタラクション: 同じ環境内で複数の独立したエージェント間でのリアルな相互作用を作成することは、まだ開発途上です。
-
現実世界の精度: Google Genie 3は、まだ現実世界の場所を地理的に完璧な精度で再現することはできません。
Link to this section重要なポイント#
Google Genie 3は、AIを用いてリアルでインタラクティブな3Dワールドを作成する上での重要な進歩を意味します。シンプルなテキストプロンプトからアイデアを実現し、物理現象をシミュレートし、安全な仮想空間でAIシステムをトレーニングすることさえ可能です。
まだ制限はあるものの、研究、ゲーム、AI開発の可能性を大きく広げています。また、人間のように考え、学習できるAGIシステムへの重要なステップでもあります。
AIの詳細については、弊社のGitHubリポジトリをご覧ください。活発なコミュニティに参加して、小売業におけるAIや製造業におけるビジョンAIなどの分野におけるイノベーションを発見してください。今すぐコンピュータビジョンを始めたい方は、弊社のライセンスオプションをご確認ください。






