Yolo 深圳
深セン
今すぐ参加

Google DeepMindのVeoによる動画生成

Abirami Vina

6 min read

2024年5月15日

テキスト、画像、動画のプロンプトから高品質の1080P動画を簡単に作成できるGoogle DeepMindの最新のジェネレーティブ動画モデル、Veoの詳細をご覧ください。

5月14日に開催されたGoogle2024年I/Oプレゼンテーションで、AI部門であるDeepMindの最新情報が発表された。最もエキサイティングな進歩のひとつは、最新のジェネレーティブ・ビデオ・モデル「Veo」だ。Veoは、テキスト、画像、ビデオプロンプトに基づいて高品質の1080Pビデオを作成することができる。さらに、生成された動画を編集することもできる。VeoはジェネレーティブAIを次のレベルに引き上げる。Veoが提供する機能を詳しく見てみよう。 

Veoの能力について

Veoは、言語とビジュアルを深く理解し、ユーザーの創造的なビジョンに合致するビデオを作成する生成ビデオモデルです。長めのプロンプトのトーンや詳細を正確に捉えることができ、アイデアを正確なビデオコンテンツに変換したいクリエイターにとって強力なツールとなります。

Veoは、「タイムラプス」や「風景の空撮」といった映画の技法を理解できるため、ユーザーは生成されたビデオを画期的にクリエイティブにコントロールできます。このクリエイティブなコントロールにより、人物、動物、オブジェクトが自然に動くビデオを作成できます。Veoによって生成されたビデオは魅力的で視覚的に美しく、AIモデルによって生成されたものだと見抜くのは困難です。

Veoは、プロンプトからビデオを作成するだけではありません。以前に生成されたビデオと、海岸線の空撮にカヤックを挿入するなど、特定の編集リクエストを提供すると、Veoはこの変更を元のビデオにシームレスに統合し、更新されたバージョンを生成します。

図1. Veoを使用したビデオ編集の例。

Veoが提供するその他の機能を紹介します。

  • マスク編集:Veoは、ビデオの定義された領域の編集を支援します。
  • 画像からインスピレーションを得たビデオ作成:画像とテキストプロンプトを使用することで、Veoは画像のスタイルを反映し、プロンプトの指示に従ったビデオを生成できます。
  • ビデオクリップの延長:Veoは、単一のプロンプト、またはストーリーを語る一連のプロンプトから、ビデオクリップを60秒以上に作成および延長できます。

Veoが生成した息をのむようなビデオ

Veoが生成したビデオのいくつかを見て、その素晴らしさの理由を探りましょう。 

短いテキストプロンプトからタイムラプスのビデオを生成するのは困難です。通常、短いテキストプロンプトでは、タイムラプスのシーン内の変化や動きを正確に伝えることができません。したがって、Veoが詳細に立ち入らなくても、タイムラプスに何を期待するかを理解できるのは驚くべきことです。 

図2. Veoが生成したタイムラプスビデオのフレーム。

同様に、正確な物理学に基づいたビデオを生成するのも簡単ではありません。AIモデルは、動きやインタラクションをリアルに見せるために、重力、運動量、衝突などの物理法則を理解し、シミュレートする必要があります。Veoがテキストプロンプトからの詳細なガイダンスなしに、これらのダイナミクスを正確にモデル化できるのは印象的です。

図3. Veoを使用して生成されたビデオのフレームは、クラゲの動きの物理学を正確に捉えています。

これまでは、計算の限界と、より長いシーケンスで一貫性を維持することの複雑さから、AIが生成する短い動画しか見ることができなかった。Google2024年I/Oプレゼンテーションでは、より長く複雑な動画を作成するVeoの驚異的な能力が示された。

図4. Google 2024 I/Oのプレゼンテーションで上映された長いVeoビデオのフレーム。

Veoはどのように機能するのか?

他の多くのAIモデルと同様、Veoは巨人の肩の上に立っている。Generative Query Network(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere、さらにGoogle独自のTransformerアーキテクチャやGeminiなど、これまでの先進的な技術を活用している。さらに、プロンプトを正確に解釈するVeoの能力を向上させるため、トレーニングデータセットの各動画のキャプションはより詳細になりました。 

Google共有された大まかなモデルのワークフローに基づくと、Veoの仕組みは以下のようになる:

  • 入力プロンプト:テキストプロンプトと、オプションで画像プロンプトを提供します。
  • エンコード:テキストプロンプトはUL2エンコーダーによって処理され、画像プロンプトは画像エンコーダーによって処理されます。
  • 埋め込みプロンプト:テキストエンコーダーと画像エンコーダーからの出力が組み合わされて、単一の埋め込みプロンプトが形成されます。
  • 潜在拡散モデル:埋め込まれたプロンプトとノイズの多い圧縮ビデオがこのモデルに渡され、それらを使用して圧縮ビデオを生成します。Veoは、高品質で圧縮されたビデオ表現(latentとして知られる)を使用し、品質を維持しながら効率を向上させています。
  • デコード:最終ステップでは、圧縮されたビデオから1080pのビデオ出力をデコードします。
図5. Veoの仕組み。

映画製作における説得力のあるケーススタディ

Veoの能力を試すため、Google 映画監督のドナルド・グローバーと彼のクリエイティブ・スタジオ、ギルガとチームを組んだ。彼らはVeoを使って、正確な動きと一貫したフレーミングを必要とするダイナミック・トラッキング・ショットなど、さまざまなクリエイティブ・テクニックを探求した。 

図6. 映画製作プロセスにおけるVeoの使用。

従来、映画製作者は時間とリソースの制約に直面していました。Veoを使用することで、グローバーと彼のチームは複雑なショットを迅速に実験および生成でき、それによって映画製作プロセスにおける柔軟性と革新性が向上しました。

Veoを使用することで、グローバーと彼のチームは、実際の撮影前に複雑なショットを迅速に実験および生成できました。たとえば、さまざまなダイナミックトラッキングショットを試して、どのように見えるかを確認し、必要に応じて調整できます。このプレビジュアライゼーションプロセスは、アイデアを洗練し、ショットが意図したとおりに機能することを保証するのに役立ち、最終的には実際の撮影に必要なテイク数を減らすことができました。彼らは、Veoが映画業界を変える可能性を示す説得力のあるケーススタディを作成することができました。これは、創造的なビジョンを具現化するためのより迅速かつ効率的な方法を提供します。

さまざまな業界におけるVeoの実用的な用途 

Veoの高度なビデオ生成機能は、多くの業界で実用的な応用が可能です。広告では、ターゲットオーディエンス向けにカスタマイズされた高品質のコマーシャルを迅速に作成し、時間と制作コストを節約できます。教育では、Veoは魅力的な教育用ビデオを作成し、複雑な概念を理解しやすくすることができます。 

企業は、Veoをトレーニングや企業コミュニケーションに利用できます。医療専門家は、トレーニング目的でVeoを使用して医療処置をシミュレートする可能性があります。バーチャルイベントや会議に関して言えば、Veoは会場やステージのリアルなシミュレーションを作成し、参加者にどこからでも魅力的でインタラクティブな体験を提供できます。主催者は、リーチの拡大と将来のイベントに関する貴重な洞察から恩恵を受けます。Veoのおかげで、数え切れないほどの機会が開かれました。

AIモデルがさまざまな産業に影響を与える可能性がある場合、安全性と倫理的なAIを念頭に置くことが重要だ。より広範な採用を可能にし、責任ある使用を保証するために、Google いくつかの安全対策を実施している。Veoによって作成された動画には、透かしを入れ、AIが生成したコンテンツを識別するためのツールであるSynthIDを使用して透かしが入れられている。SynthIdは透明性を確保し、プライバシー、著作権、偏見のリスクを軽減するのに役立つ。これ以外にも、生成された動画はすべて、安全フィルターおよび記憶チェックプロセスを通過します。これらの保護措置により、Veo は、責任ある革新的なビデオ制作をサポートする価値ある倫理的なツールとなっています。

Veoへのアクセス場所

今後数週間で、Google 、Veo の画期的な機能の一部を、labsgoogle で利用可能な新しいツールである VideoFX を通じて、一部のクリエイターに提供し始めます。この取り組みにより、Veo の高度な動画生成機能にいち早くアクセスできるようになり、クリエイターはその革新的な機能を試す機会を得ることができます。現在、Veo のキャンセル待ちリストが公開されており、興味のあるクリエイターに登録してもらい、プロジェクトで Veo の強力なツールを使用してもらうことができます。

DeepMindの2024年の生成AIアップデートの詳細

Veoに加えて、DeepMindは2024年の生成AIにおけるいくつかの最先端のアップデートを発表しました。これらのアップデートの1つは、これまでで最も高度なテキストから画像へのモデルであるImagen 3です。Imagen 3は、フォトリアリスティックでリアルな画像の作成に優れています。自然言語プロンプトを深く理解し、視覚的なアーティファクトを最小限に抑えながら、複雑な詳細をキャプチャします。

図7. Imagen 3を使用して生成された画像。

DeepMindは、AI音楽生成のための最も高度なモデルであるLyriaも開発しました。この取り組みの一環として、DeepMindはMusic AI Sandboxと呼ばれる音楽AIツールのスイートを作成しました。これらのツールにより、ミュージシャンとプロデューサーは、作曲とサウンド変換における新しい創造的な可能性を探求できます。

図8. DeepMindのAI音楽ツールのUIの例。

Veoと同様に、DeepMindは他のアップデートに関してもいくつかの安全対策を実施しています。SynthIDは、AIによって生成されたコンテンツを透かしで識別するためのツールとして、これらのアップデート全体で使用されます。DeepMindからのこれらのアップデートは、高品質の視覚およびオーディオコンテンツを作成するための高度で効率的かつ責任あるツールを提供することにより、さまざまな業界を変革することを約束します。

生成AIの次の段階をナビゲートする

Veo、Imagen 3、Lyriaを含むDeepMindの2024年の生成AIの進歩は、AI機能の大幅な飛躍を示しています。Veoは、単純なプロンプトから高品質の1080pビデオを生成する機能により、ビデオ作成を変革し、映画製作者やコンテンツクリエイターにとって用途の広いツールとなっています。Imagen 3は、フォトリアリスティックな画像の生成に優れており、Lyriaは高度なAIツールを使用して音楽生成に新しい可能性をもたらします。

これらのテクノロジーは、高品質の視覚およびオーディオコンテンツを作成するための効率的で責任あるツールを提供することにより、さまざまな業界を変革することを約束します。SynthIDのような安全対策により倫理的な使用を保証することで、DeepMindはAIの境界を拡大し続け、将来の革新的なアプリケーションへの道を開きます。

AIの詳細については、GitHubリポジトリにアクセスし、コミュニティに参加してください。AIが製造業農業にどのように応用されているかについては、ソリューションページをご覧ください。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる