Google DeepMind の Veo を使用した動画生成
Google DeepMind の最新の生成動画モデル Veo について学びましょう。テキスト、画像、動画プロンプトから簡単に高品質な 1080P 動画を作成できます。

5月14日に開催されたGoogle I/O 2024のプレゼンテーションで、Googleは同社のAI部門であるDeepMindの最新アップデートを共有しました。その中で最もエキサイティングな進歩の一つが、最新の動画生成モデルであるVeoです。Veoは、テキスト、画像、動画のプロンプトに基づいて高品質な1080p動画を作成できます。さらに、後続のプロンプトを使用して生成された動画を編集することも可能です。Veoは生成AIを次のレベルへと引き上げます。Veoが提供する機能について詳しく見ていきましょう。
Link to this sectionVeoの能力を理解する#
Veoは、言語と視覚の深い理解を利用して、ユーザーの創造的なビジョンに忠実な動画を作成する動画生成モデルです。長いプロンプトのトーンや詳細を正確に捉えることができるため、アイデアを精密な動画コンテンツに変換したいクリエイターにとって強力なツールとなります。
Veoは「タイムラプス」や「風景の空撮」といった映画撮影技法を理解できるため、ユーザーは生成される動画に対して画期的な創造的コントロールを行うことができます。この創造的なコントロールにより、人、動物、物体が自然に動く動画を作成することが可能になります。Veoによって生成された動画は、AIモデルによって生成されたものであることを見抜くのが難しいため、魅力的で視覚的にも優れています。
Veoは、プロンプトから単に動画を作成するだけにとどまりません。以前に生成された動画と具体的な編集リクエスト(海岸線の空撮にカヤックを挿入するなど)を提供すると、Veoはその変更を元の動画にシームレスに統合し、更新されたバージョンを作成できます。

図1. Veoを使用した動画編集の例。
Veoが提供するその他の機能をいくつか紹介します。
- マスク編集: Veoは動画内の指定された領域を編集するのに役立ちます。
- 画像に着想を得た動画作成: 画像とテキストプロンプトを使用して、その画像のスタイルを反映し、プロンプトの指示に従う動画を生成できます。
- 拡張動画クリップ: Veoは、単一のプロンプト、またはストーリーを伝える一連のプロンプトから、60秒以上の動画クリップを作成および延長できます。
Link to this sectionVeoが生成した息をのむような動画#
Veoが生成した動画の一部と、なぜそれがこれほどまでに息をのむほど素晴らしいのかを見ていきましょう。
短いテキストプロンプトからタイムラプス動画を生成することは困難です。通常、短いテキストプロンプトだけでは、タイムラプスのシーン内の変化や動きを正確に伝えることができません。そのため、Veoが詳細に立ち入ることなくタイムラプスに何を期待すべきかを理解できるのは驚異的です。

図2. Veoが生成したタイムラプス動画のフレーム。
同様に、正確な物理法則を伴う動画の生成も容易ではありません。AIモデルは、動きや相互作用を現実的に見せるために、重力、運動量、衝突といった物理法則を理解し、シミュレートする必要があります。Veoがテキストプロンプトからの詳細なガイダンスなしに、これらのダイナミクスを正確にモデル化できるのは印象的です。

図3. クラゲの動きの物理法則を正確に捉えたVeo生成動画のフレーム。
これまでのところ、計算上の制限や長いシーケンス全体で一貫性を維持する複雑さのため、AIによって生成された短い動画しか見ることができませんでした。Google I/O 2024のプレゼンテーションでは、より長く複雑な動画を作成するVeoの驚異的な能力が披露されました。

図4. Google I/O 2024のプレゼンテーションで紹介された長編Veo動画のフレーム。
Link to this sectionVeoの仕組みは?#
多くのAIモデルと同様に、Veoは巨人たちの肩の上に立っています。これは、Generative Query Network (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiereといったこれまでの進歩に加え、Google独自のTransformerアーキテクチャやGeminiから着想を得ています。さらに、Veoのプロンプト解釈能力を向上させるために、トレーニングデータセット内の各動画のキャプションがより詳細になっています。
Googleが共有した大まかなモデルワークフローに基づくと、Veoの仕組みは次の通りです。
- 入力プロンプト: テキストプロンプトと、オプションで画像プロンプトを提供します。
- エンコーディング: テキストプロンプトはUL2エンコーダーによって処理され、画像プロンプトは画像エンコーダーによって処理されます。
- 埋め込みプロンプト: テキストエンコーダーと画像エンコーダーからの出力を組み合わせて、単一の埋め込みプロンプトを形成します。
- 潜在拡散モデル: 埋め込みプロンプトとノイズの混じった圧縮動画がこのモデルに渡され、それらを使用して圧縮動画が生成されます。Veoは、品質を維持しながら効率を向上させるために、ラテント(潜在変数)として知られる高品質な圧縮動画表現を使用します。
- デコーディング: 最終ステップでは、圧縮動画から1080p動画出力をデコードします。

図5. Veoの仕組み。
Link to this section映画制作における説得力のある事例研究#
Veoの能力をテストするために、Googleは映画監督のドナルド・グローヴァー氏および彼のクリエイティブスタジオであるGilgaと協力しました。彼らはVeoを使用して、正確な動きと一貫したフレーミングを必要とするダイナミックなトラッキングショットを含む、さまざまな創造的テクニックを探求しました。

図6. 映画制作プロセスにおけるVeoの使用。
従来、映画製作者は時間とリソースの制約による制限に直面してきました。Veoを使うことで、グローヴァー氏のチームは複雑なショットを迅速に実験および生成できるようになり、その結果、映画制作プロセスにおいてより大きな柔軟性と革新性がもたらされました。
Veoを利用することで、グローヴァー氏のチームは実際の撮影前に、複雑なショットを迅速に実験し生成することができました。例えば、さまざまなダイナミックなトラッキングショットをテストしてどのように見えるかを確認し、必要に応じて調整を行うことができました。このプリビジュアライゼーションプロセスは、アイデアを洗練させ、ショットが意図通りに機能することを確認するのに役立ち、最終的に実際の撮影に必要なテイク数を減らすことにつながりました。彼らは、映画業界を変革するVeoの可能性を実証する説得力のある事例研究を作成することができました。これは、創造的なビジョンを実現するためのより高速で効率的な方法を提供します。
Link to this sectionさまざまな業界におけるVeoの実際的な用途#
Veoの高度な動画生成能力には、多くの業界にわたる実用的な応用があります。広告業界では、ターゲット層向けにカスタマイズされた高品質なコマーシャルを迅速に制作でき、時間と制作コストを削減できます。教育分野では、Veoが魅力的で分かりやすい学習動画を作成することで、複雑な概念を理解しやすくできます。
ビジネスの現場では、トレーニングや社内コミュニケーションにVeoを活用できます。ヘルスケアの専門家は、トレーニング目的で医療処置をシミュレートするためにVeoを使用するかもしれません。バーチャルイベントやカンファレンスに関しては、Veoが会場やステージのリアルなシミュレーションを作成し、場所を問わず参加者に没入感のあるインタラクティブな体験を提供できます。主催者は、リーチの拡大と将来のイベントに向けた貴重なインサイトを得ることができます。Veoのおかげで、無数の機会が切り拓かれました。
AIモデルがさまざまな業界に影響を与える可能性を秘めている場合、安全性と倫理的なAIを念頭に置くことが重要です。より広範な採用を可能にし、責任ある使用を確保するために、Googleはいくつかの安全対策を講じています。Veoによって作成された動画には、AI生成コンテンツを透かし入れし識別するためのツールであるSynthIDが適用されています。SynthIDは透明性を確保し、プライバシー、著作権、バイアスに関連するリスクを軽減するのに役立ちます。これに加えて、生成されたすべての動画は安全フィルターと記憶チェックプロセスを通過します。これらの保護策により、Veoは責任ある革新的な動画制作を支援する、価値のある倫理的なツールとなっています。
Link to this sectionVeoへのアクセス方法#
今後数週間のうちに、GoogleはVeoの画期的な機能の一部を、labs.googleで利用可能な新しいツール「VideoFX」を通じて、一部のクリエイターに提供を開始します。このイニシアチブにより、Veoの高度な動画生成能力への早期アクセスが可能になり、クリエイターはその革新的な機能を実験する機会が得られます。Veoのウェイティングリストは現在公開されており、関心のあるクリエイターは登録して、プロジェクトでVeoの強力なツールを使用することができます。
Link to this sectionDeepMindの2024年生成AIアップデートに関する詳細#
Veoの他にも、DeepMindは2024年に向けていくつかの最先端の生成AIアップデートを導入しました。その一つが、同社で最も高度なテキストから画像を生成するモデルであるImagen 3です。Imagen 3は、写真のようにリアルで実物そっくりの画像を生成することに優れています。自然言語プロンプトを深く理解し、視覚的なアーティファクトを最小限に抑えながら複雑な詳細を捉えます。

図7. Imagen 3を使用して生成された画像。
DeepMindはまた、AI音楽生成のための最も高度なモデルであるLyriaを開発しました。この取り組みの一環として、DeepMindは「Music AI Sandbox」と呼ばれる音楽AIツールのスイートを作成しました。これらのツールにより、ミュージシャンやプロデューサーは、作曲やサウンド変換における新しい創造的な可能性を探求できます。

図8. DeepMindのAI音楽ツールのUI例。
Veoと同様に、DeepMindは他のアップデートに関してもいくつかの安全対策を講じています。SynthIDは、AI生成コンテンツを透かし入れし識別するためのツールとして、これらのアップデート全体で使用される予定です。DeepMindによるこれらのアップデートは、高品質な視覚および音声コンテンツを作成するための高度で効率的かつ責任あるツールを提供することで、さまざまな業界を変革することを約束します。
Link to this section生成AIの次のフェーズをナビゲートする#
Veo、Imagen 3、Lyriaを含むDeepMindの2024年の生成AIの進歩は、AI能力におけるかなりの飛躍を意味します。Veoは、簡単なプロンプトから高品質な1080p動画を生成する能力により、動画制作を一変させ、映画製作者やコンテンツクリエイターにとって多用途なツールとなります。Imagen 3は写真のようにリアルな画像の生成に優れており、Lyriaは高度なAIツールによって音楽生成に新しい可能性をもたらします。
これらのテクノロジーは、高品質な視覚および音声コンテンツを作成するための効率的で責任あるツールを提供することで、さまざまな業界を変革することを目指しています。SynthIDのような安全対策によって倫理的な使用が確保される中、DeepMindはAIの境界を広げ続け、将来の革新的な応用に向けた道を開いています。
私たちのGitHubリポジトリを訪れ、コミュニティに参加して、AIの世界に飛び込みましょう。私たちのソリューションページを探索して、製造業や農業においてAIがどのように適用されているかについて学びましょう。






