YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

Google DeepMindのVeoでビデオを生成する

Abirami Vina

6 min read

2024年5月15日

テキスト、画像、ビデオのプロンプトから高品質の1080Pビデオを簡単に作成できる、Google DeepMindの最新の生成ビデオモデルであるVeoの詳細をご覧ください。

5月14日に開催されたGoogle I/O 2024のプレゼンテーションで、GoogleのAI部門であるDeepMindからの最新情報が共有されました。最もエキサイティングな進歩の1つは、最新の生成ビデオモデルであるVeoです。Veoは、テキスト、画像、ビデオのプロンプトに基づいて、高品質な1080Pビデオを作成できます。さらに、生成されたビデオを後続のプロンプトで編集することも可能です。Veoは、生成AIを次のレベルに引き上げます。Veoが提供する機能について詳しく見ていきましょう。 

Veoの能力について

Veoは、言語とビジュアルを深く理解し、ユーザーの創造的なビジョンに合致するビデオを作成する生成ビデオモデルです。長めのプロンプトのトーンや詳細を正確に捉えることができ、アイデアを正確なビデオコンテンツに変換したいクリエイターにとって強力なツールとなります。

Veoは、「タイムラプス」や「風景の空撮」といった映画の技法を理解できるため、ユーザーは生成されたビデオを画期的にクリエイティブにコントロールできます。このクリエイティブなコントロールにより、人物、動物、オブジェクトが自然に動くビデオを作成できます。Veoによって生成されたビデオは魅力的で視覚的に美しく、AIモデルによって生成されたものだと見抜くのは困難です。

Veoは、プロンプトからビデオを作成するだけではありません。以前に生成されたビデオと、海岸線の空撮にカヤックを挿入するなど、特定の編集リクエストを提供すると、Veoはこの変更を元のビデオにシームレスに統合し、更新されたバージョンを生成します。

図1. Veoを使用したビデオ編集の例。

Veoが提供するその他の機能を紹介します。

  • マスク編集:Veoは、ビデオの定義された領域の編集を支援します。
  • 画像からインスピレーションを得たビデオ作成:画像とテキストプロンプトを使用することで、Veoは画像のスタイルを反映し、プロンプトの指示に従ったビデオを生成できます。
  • ビデオクリップの延長:Veoは、単一のプロンプト、またはストーリーを語る一連のプロンプトから、ビデオクリップを60秒以上に作成および延長できます。

Veoが生成した息をのむようなビデオ

Veoが生成したビデオのいくつかを見て、その素晴らしさの理由を探りましょう。 

短いテキストプロンプトからタイムラプスのビデオを生成するのは困難です。通常、短いテキストプロンプトでは、タイムラプスのシーン内の変化や動きを正確に伝えることができません。したがって、Veoが詳細に立ち入らなくても、タイムラプスに何を期待するかを理解できるのは驚くべきことです。 

図2. Veoが生成したタイムラプスビデオのフレーム。

同様に、正確な物理学に基づいたビデオを生成するのも簡単ではありません。AIモデルは、動きやインタラクションをリアルに見せるために、重力、運動量、衝突などの物理法則を理解し、シミュレートする必要があります。Veoがテキストプロンプトからの詳細なガイダンスなしに、これらのダイナミクスを正確にモデル化できるのは印象的です。

図3. Veoを使用して生成されたビデオのフレームは、クラゲの動きの物理学を正確に捉えています。

これまで、AIによって生成される動画は、計算能力の限界と、より長いシーケンスにわたって一貫性を維持することの複雑さから、短いものしか見られませんでした。Googleの2024年I/Oプレゼンテーションでは、Veoの、より長く、より複雑な動画を作成する驚くべき能力が示されました。

図4. Google I/O 2024のプレゼンテーションで公開された、より長いVeoビデオからのフレーム。

Veoはどのように機能するのか?

他の多くのAIモデルと同様に、Veoは先人たちの肩の上に立っています。Generative Query Network (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere、そしてGoogle独自のTransformerアーキテクチャとGeminiなど、以前の進歩から恩恵を受けています。さらに、Veoがプロンプトを正確に解釈する能力を向上させるために、トレーニングデータセット内の各ビデオのキャプションがより詳細になりました。 

Googleによって共有されたおおまかなモデルのワークフローに基づいて、Veoの動作は次のとおりです。

  • 入力プロンプト:テキストプロンプトと、オプションで画像プロンプトを提供します。
  • エンコード:テキストプロンプトはUL2エンコーダーによって処理され、画像プロンプトは画像エンコーダーによって処理されます。
  • 埋め込みプロンプト:テキストエンコーダーと画像エンコーダーからの出力が組み合わされて、単一の埋め込みプロンプトが形成されます。
  • 潜在拡散モデル:埋め込まれたプロンプトとノイズの多い圧縮ビデオがこのモデルに渡され、それらを使用して圧縮ビデオを生成します。Veoは、高品質で圧縮されたビデオ表現(latentとして知られる)を使用し、品質を維持しながら効率を向上させています。
  • デコード:最終ステップでは、圧縮されたビデオから1080pのビデオ出力をデコードします。
図5. Veoの仕組み。

映画製作における説得力のあるケーススタディ

Veoの能力を試すために、Googleは映画監督のドナルド・グローバーと彼のクリエイティブスタジオであるGilgaと提携しました。彼らはVeoを使用して、正確な動きと一貫したフレーミングを必要とするダイナミックなトラッキングショットなど、さまざまなクリエイティブなテクニックを検討しました。 

図6. 映画製作プロセスにおけるVeoの使用。

従来、映画製作者は時間とリソースの制約に直面していました。Veoを使用することで、グローバーと彼のチームは複雑なショットを迅速に実験および生成でき、それによって映画製作プロセスにおける柔軟性と革新性が向上しました。

Veoを使用することで、グローバーと彼のチームは、実際の撮影前に複雑なショットを迅速に実験および生成できました。たとえば、さまざまなダイナミックトラッキングショットを試して、どのように見えるかを確認し、必要に応じて調整できます。このプレビジュアライゼーションプロセスは、アイデアを洗練し、ショットが意図したとおりに機能することを保証するのに役立ち、最終的には実際の撮影に必要なテイク数を減らすことができました。彼らは、Veoが映画業界を変える可能性を示す説得力のあるケーススタディを作成することができました。これは、創造的なビジョンを具現化するためのより迅速かつ効率的な方法を提供します。

さまざまな業界におけるVeoの実用的な用途 

Veoの高度なビデオ生成機能は、多くの業界で実用的な応用が可能です。広告では、ターゲットオーディエンス向けにカスタマイズされた高品質のコマーシャルを迅速に作成し、時間と制作コストを節約できます。教育では、Veoは魅力的な教育用ビデオを作成し、複雑な概念を理解しやすくすることができます。 

企業は、Veoをトレーニングや企業コミュニケーションに利用できます。医療専門家は、トレーニング目的でVeoを使用して医療処置をシミュレートする可能性があります。バーチャルイベントや会議に関して言えば、Veoは会場やステージのリアルなシミュレーションを作成し、参加者にどこからでも魅力的でインタラクティブな体験を提供できます。主催者は、リーチの拡大と将来のイベントに関する貴重な洞察から恩恵を受けます。Veoのおかげで、数え切れないほどの機会が開かれました。

AIモデルがさまざまな業界に影響を与える可能性がある場合、安全性と倫理的なAIを念頭に置くことが重要です。より広範な採用を可能にし、責任ある使用を保証するために、Googleはいくつかの安全対策を実施しています。Veoによって作成されたビデオには、AIによって生成されたコンテンツを透かしで識別するためのツールであるSynthIDを使用して透かしが入ります。SynthIdは透明性を確保し、プライバシー、著作権、バイアスのリスクを軽減するのに役立ちます。これ以外に、生成されたすべてのビデオは、安全フィルターと記憶チェックプロセスを通過します。これらの安全対策により、Veoは責任ある革新的なビデオ制作をサポートする、価値のある倫理的なツールになります。

Veoへのアクセス場所

今後数週間以内に、Googleはlabs.googleで利用できる新しいツールであるVideoFXを通じて、Veoの画期的な機能の一部を選択されたクリエイターに提供し始めます。このイニシアチブにより、Veoの高度なビデオ生成機能への早期アクセスが可能になり、クリエイターは革新的な機能を試す機会が得られます。Veoのウェイティングリストは現在公開されており、関心のあるクリエイターはサインアップして、プロジェクトでVeoの強力なツールを使用できます。

DeepMindの2024年の生成AIアップデートの詳細

Veoに加えて、DeepMindは2024年の生成AIにおけるいくつかの最先端のアップデートを発表しました。これらのアップデートの1つは、これまでで最も高度なテキストから画像へのモデルであるImagen 3です。Imagen 3は、フォトリアリスティックでリアルな画像の作成に優れています。自然言語プロンプトを深く理解し、視覚的なアーティファクトを最小限に抑えながら、複雑な詳細をキャプチャします。

図7. Imagen 3を使用して生成された画像。

DeepMindは、AI音楽生成のための最も高度なモデルであるLyriaも開発しました。この取り組みの一環として、DeepMindはMusic AI Sandboxと呼ばれる音楽AIツールのスイートを作成しました。これらのツールにより、ミュージシャンとプロデューサーは、作曲とサウンド変換における新しい創造的な可能性を探求できます。

図8. DeepMindのAI音楽ツールのUIの例。

Veoと同様に、DeepMindは他のアップデートに関してもいくつかの安全対策を実施しています。SynthIDは、AIによって生成されたコンテンツを透かしで識別するためのツールとして、これらのアップデート全体で使用されます。DeepMindからのこれらのアップデートは、高品質の視覚およびオーディオコンテンツを作成するための高度で効率的かつ責任あるツールを提供することにより、さまざまな業界を変革することを約束します。

生成AIの次の段階をナビゲートする

Veo、Imagen 3、Lyriaを含むDeepMindの2024年の生成AIの進歩は、AI機能の大幅な飛躍を示しています。Veoは、単純なプロンプトから高品質の1080pビデオを生成する機能により、ビデオ作成を変革し、映画製作者やコンテンツクリエイターにとって用途の広いツールとなっています。Imagen 3は、フォトリアリスティックな画像の生成に優れており、Lyriaは高度なAIツールを使用して音楽生成に新しい可能性をもたらします。

これらのテクノロジーは、高品質の視覚およびオーディオコンテンツを作成するための効率的で責任あるツールを提供することにより、さまざまな業界を変革することを約束します。SynthIDのような安全対策により倫理的な使用を保証することで、DeepMindはAIの境界を拡大し続け、将来の革新的なアプリケーションへの道を開きます。

AIの詳細については、GitHubリポジトリにアクセスし、コミュニティに参加してください。AIが製造業農業にどのように応用されているかについては、ソリューションページをご覧ください。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました