DeepMindのGenie 3 AIワールドモデルは、テキストまたは画像のプロンプトを3D環境に変換します。この進歩は、人間のような知能に向けたもう1つのステップとなります。
.webp)
DeepMindのGenie 3 AIワールドモデルは、テキストまたは画像のプロンプトを3D環境に変換します。この進歩は、人間のような知能に向けたもう1つのステップとなります。
.webp)
2025年8月5日、Google ジーニーの最新バージョン「ジーニー3」を発表した。これは、ユーザーのテキストプロンプトをダイナミックでインタラクティブな環境に変換できる新しいAIモデルである。
これらの環境、つまりAIの世界では、ユーザーはビデオゲームのように、リアルタイムでナビゲートして操作できます。ユーザーは、追加のテキストプロンプトを提供して環境を拡張または変更することもでき、シミュレーションを再開せずにオンザフライで変更できます。
Google 最新モデル「ジーニー」が特にインパクトがあるのは、AIエージェントのトレーニングに使えることだ。これは、データとフィードバックを使ってAIエージェントに意思決定やタスクの実行を教えることを含む。現実世界ではなく、シミュレートされた3D環境を使用することで、研究者は現実世界でのトレーニングの課題、コスト、リスクの多くを回避することができる。
Google Genie 3は、悪天候の中を走る自律走行車のテストや、山岳地帯を滑空するウィングスーツのテストなど、複雑なシナリオもシミュレートできる。
この記事では、Google Genie 3とその機能についてご紹介します。さっそく始めよう!

Google DeepMindのGenieモデルに飛び込む前に、世界モデルとは何かについて理解を深めておこう。
ワールドモデルは、テキスト、画像、動画、および動きのデータセットから、物理、運動、空間関係といった現実世界のルールを学習するAIシステムです。これにより、現実的なシーンを作成し、それらがどのように進化するかを予測できます。Genieモデルは、そのようなシステムの例です。
ここでは、Genie 3への道を開いたGoogle Genieの初期モデルを簡単に紹介しよう:
初期のGenieモデルをベースにしたGenie 3は、シリーズの最新かつ最も高度なものである。特に、新しい仮想環境を生成できるGenie 2と、Google DeepMindの最新映像生成モデルであるVeo 3の上に構築されている。Veo 3は、物理学と現実世界で物体がどのように相互作用するかを深く理解している。
Veo 3がハードコーディングされた物理エンジンを使用しているのに対し、Google Genie 3は、自己教師あり学習として知られる方法を使用して物理学の仕組みを学習する。これはAIの学習手法のひとつで、AIモデルが自ら学習シグナルを生成することで、ラベル付けされていないデータからパターンと関係を学習するものだ。
Google Genie 3の自己教師付き学習機能は、AIエージェントやAIロボットなどのAIシステムに様々なタスクを処理させるためのトレーニングを行う上で極めて重要である。実際、Google DeepMindの研究者たちは、Genie 3を人工知能(AGI)の創造に向けた重要な一歩と見なしている。

AGIは、あらゆるタスクや主題を理解して学習し、その知識を人間のようにさまざまな状況に適用できる、AIの理論的な形態です。特定のタスクのために構築され、そのスキルを新しい問題に転送するのに苦労する今日の人工知能モデルとは異なり、AGIは幅広いコンテキストで適応して学習することができます。
Genie 3でサポートされている主な機能を以下に示します。

Google Genie 3は、学習、研究、トレーニングをより没入的で魅力的なものにします。例えば、教室では、生徒が古代都市を探検したり、宇宙を旅したりすることで、歴史、科学、地理に命を吹き込むことができます。同様に、人工知能の開発者にとっては、戦略を練習し、課題をナビゲートし、意思決定スキルを向上させるための現実的な仮想世界を提供します。
科学者はまた、アイデアをテストしたり、生態系を研究したり、オブジェクトの挙動を観察したりするための制御されたシミュレーションを作成するためにもそれを使用できます。もう1つの興味深いアプリケーションは、ビデオゲーム開発です。ゲーム開発者は、テキストプロンプトを詳細なゲーム世界に変え、開発をスピードアップし、大規模なチームの必要性を減らすことができます。

Google Genie 3には多くの機能と利点があるが、欠点を考慮することも重要である。
考慮すべきいくつかの制限事項を以下に示します。
Google Genie 3は、AIによるリアルでインタラクティブな3D世界の創造において大きな進歩を遂げた。シンプルなテキストプロンプトからアイデアを実現し、物理シミュレーションを行い、安全な仮想空間でAIシステムを訓練することもできる。
まだ限界はありますが、研究、ゲーム、AI開発に多くの可能性が開かれています。また、人間のように考え、学習できるAGIシステムに向けた重要なステップでもあります。
AIに関する詳細については、GitHubリポジトリをご覧ください。活発なコミュニティに参加して、小売業におけるAIや製造業におけるVision AIなどの分野におけるイノベーションを発見してください。今日からコンピュータビジョンを始めるには、ライセンスオプションをご確認ください。