YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024

Meta Movie Gen:コンテンツ制作の再構築

Abirami Vina

4分で読めます

2024年11月15日

Meta Movie Genが動画と音声の制作をどのように再定義しているかをご覧ください。このモデルがどのように正確な動画編集を提供し、パーソナライズされたメディア制作をサポートするかを学びます。

あなたが意欲的な映画製作者であろうと、視聴者向けに動画を作成するコンテンツクリエイターであろうと、創造性を広げるAIツールを持つことは常に役立ちます。最近、Metaは、Meta Movie Genと呼ばれる最新の生成動画モデルを発表しました。 

メディアおよびエンターテインメントにおける世界の生成AI市場は、2033年までに115.7億ドルに達すると予測されており、Runway、OpenAIMetaなどの企業が画期的なイノベーションをリードしています。特にMeta Movie Genは、映画製作、動画コンテンツ制作、デジタルストーリーテリングなどのアプリケーションに最適であり、高品質のAI生成動画を通じて創造的なビジョンをこれまで以上に簡単に実現できます。この記事では、Meta Movie Genとその仕組みについて説明します。また、そのアプリケーションについても詳しく見ていきます。それでは始めましょう!

__wf_reserved_inherit
図1。Meta Movie Genを使用して生成されたビデオクリップのフレーム。

Meta Movie Genとは?

Meta Movie Genについて説明する前に、その成り立ちを見てみましょう。 

生成AIに関連するMetaの研究努力は、Make-A-Sceneシリーズのモデルから始まりました。この研究は、アーティストや先見の明のある人々が想像力を実現するのに役立つマルチモーダル生成AI手法に焦点を当てています。アーティストは、画像、オーディオ、ビデオ、または3Dアニメーションを入力して、目的の画像出力を得ることができます。イノベーションにおける次の飛躍は、Llama Image Foundationモデル(Emu)のような拡散モデルによってもたらされ、これにより、はるかに高品質の画像やビデオを生成できるようになり、画像編集が可能になりました。

__wf_reserved_inherit
図2。Make-A-Sceneのスケッチとテキスト入力を利用して生成された画像の例。

Movie Genは、生成AI研究に対するMetaの最新の貢献です。これは、前述のすべてのモダリティを組み合わせ、さらにきめ細かい制御を可能にし、人々がモデルをより創造的な方法で使用できるようにします。Meta Movie Genは、テキストからビデオ、テキストからオーディオ、テキストから画像など、さまざまな種類のメディアを生成するための基盤モデルのコレクションです。これは4つのモデルで構成されており、ライセンスされたデータセットと公開されているデータセットの組み合わせでトレーニングされています。 

これらのモデルの概要を簡単に説明します。

  • Movie Gen Videoモデル: テキストプロンプトから高品質なビデオを生成する、300億パラメータのモデルです。
  • Movie Gen Audioモデル: ビデオコンテンツと同期するサウンドトラックを作成できる、130億パラメータのモデルです。
  • Personalized Movie Gen Videoモデル: テキストプロンプトと1枚の画像に基づいて、特定の人物のビデオを生成し、その人物の特徴を保持します。
  • Movie Gen Editモデル:このモデルを使用すると、実写およびフィクションビデオに対して、テキストベースで詳細なビデオ編集が可能です。 

Meta Movie Genビデオモデルのトレーニング

Movie Gen Videoモデルの作成とトレーニングには、いくつかの重要なプロセスが関わっています。最初のステップは、主に人間の活動に関する画像やビデオクリップなど、視覚データの収集と準備であり、品質、動き、関連性に基づいてフィルタリングされました。次に、各シーン内で何が起こっているかを説明するテキストキャプションとデータをペアにしました。 MetaのLLaMa3-Videoモデルを使用して生成されたキャプションは、各シーンの内容に関する豊富な詳細を提供し、モデルの視覚的なストーリーテリング機能を強化しました。

__wf_reserved_inherit
図3。Movie Gen Videoモデルの事前トレーニングデータキュレーションパイプラインの概要。

トレーニングプロセスは、モデルがテキストを低解像度の画像に変換することを学習することから始まりました。その後、テキストから画像への変換とテキストからビデオへのトレーニングを組み合わせ、ますます高品質のビジュアルを使用することで、フルビデオクリップの作成に進みました。 

Temporal Autoencoder(TAE)と呼ばれるツールは、大量のデータを効率的に管理するためにビデオを圧縮しました。ファインチューニングにより、ビデオの品質がさらに向上し、モデル平均化(複数のモデル出力を組み合わせて、よりスムーズで一貫性のある結果を得る手法)により、出力の一貫性が向上しました。最後に、最初は768pだったビデオは、空間アップサンプラー技術を使用して鮮明な1080p解像度にアップスケールされました。これにより、ピクセルデータを追加して画像の解像度を高め、より鮮明なビジュアルを実現しました。その結果、高品質で詳細なビデオ出力が得られました。

Meta Movie Genの機能を探る

Meta Movie Genモデルは、主に4つの異なる機能をサポートしています。それぞれの機能について詳しく見ていきましょう。

ビデオとオーディオの生成

Meta Movie Genは、高品質のビデオを生成できます。これらのビデオクリップは、最大16秒の長さで、16 fps(1秒あたりのフレーム数)で実行でき、テキストプロンプトから動き、インタラクション、カメラアングルを捉えたリアルなビジュアルを作成します。130億パラメータのオーディオモデルと組み合わせることで、アンビエントサウンド、効果音、音楽などの同期されたオーディオを生成し、ビジュアルに合わせることができます。 

この設定により、ビジュアルとオーディオの両方がさまざまなシーンやプロンプトで一貫してリアルに保たれる、シームレスでリアルな体験が保証されます。たとえば、これらのモデルは、タイの人気のコビトカバであるムーデンのビデオクリップを作成するために使用されました。

__wf_reserved_inherit
図4。MetaのMovie Genを使用して作成されたムーデンのビデオクリップのフレーム。

パーソナライズされたビデオ生成

Meta Movie Genモデルのもう1つの興味深い機能は、パーソナライズされたビデオ生成です。ユーザーは、人物の画像と、ビデオクリップをどのように生成するかを説明するテキストプロンプトを提供できます。これにより、参照人物が含まれ、テキストプロンプトで指定された豊富な視覚的詳細が組み込まれたビデオが生成されます。モデルは、両方の入力(画像とテキスト)を使用して、人物のユニークな外観と自然な体の動きを維持しながら、プロンプトで説明されているシーンを正確に再現します。

__wf_reserved_inherit
図5。モデルのパーソナライズされたビデオ生成機能の例。

正確なビデオ編集 

Movie Gen Editモデルを使用すると、ユーザーはビデオクリップとテキストプロンプトの両方を入力として提供して、ビデオをクリエイティブに編集できます。このモデルは、ビデオ生成と高度な画像編集を組み合わせて、要素の追加、削除、置換など、非常に具体的な編集を実行します。また、ビデオクリップの背景や全体的なスタイルを変更するなど、グローバルな変更も実行できます。しかし、このモデルを真にユニークなものにしているのは、その精度です。編集が必要な特定のピクセルのみをターゲットにし、残りの部分はそのままにすることができます。これにより、元のコンテンツを可能な限り保持できます。 

__wf_reserved_inherit
図6。Movie Gen Editモデルのビデオ編集機能のさまざまな例。

Meta Movie Genのベンチマークツール

生成AIモデルに加えて、Metaは生成AIモデルのパフォーマンスをテストするためのベンチマークツールのスイートであるMovie Gen Benchも導入しました。これには、Movie Gen Video BenchとMovie Gen Audio Benchの2つの主要なツールが付属しています。どちらも、ビデオおよびオーディオ生成のさまざまな側面をテストするように設計されています。

両方のツールを簡単に紹介します。

  • Movie Gen Video Bench: このベンチマークは、人間の活動、動物自然の風景物理現象、そして珍しいテーマや活動など、多岐にわたるテストカテゴリを網羅する1003個のプロンプトで構成されています。この評価ベンチマークの特に価値のある点は、モーションレベルを網羅していることで、動画生成モデルが高速なシーケンスと低速なシーケンスの両方でテストされることを保証します。
  • Movie Gen Audio Bench: 527個のプロンプトにわたるオーディオ生成能力をテストするために設計されています。これらのプロンプトは、生成されたビデオと組み合わせて、モデルが効果音や音楽を視覚コンテンツとどれだけうまく同期できるかを評価します。
__wf_reserved_inherit
図7. この図は、評価プロンプトの内訳を示しており、左側にはコンセプトのリスト、右側には一般的に使用される名詞と動詞のワードクラウドがあります。

Meta Movie Genの実用的な応用

Meta Movie Genモデルがどのようなもので、どのように機能するかを説明したので、次に、その実用的な応用例の1つを見ていきましょう。 

映画製作におけるMovie Gen AIの革新

MetaのMovie Genの最もエキサイティングな用途の1つは、AIを活用したビデオおよびオーディオ制作を通じて、映画製作をどのように変革できるかということです。Movie Genを使用すると、クリエイターは簡単なテキストプロンプトから高品質のビジュアルとサウンドを生成し、ストーリーを伝える新しい方法を開くことができます。 

実際、MetaはBlumhouseおよび映画製作者グループと提携し、Movie Genが創作プロセスをどのようにサポートできるかについてフィードバックを集めました。アニーシュ・チャガンティ、スパーロック姉妹、ケイシー・アフレックなどの映画製作者は、ムード、トーン、および視覚的な方向性を捉えるツールの能力をテストしました。彼らは、このモデルが新鮮なアイデアを生み出すのに役立つことを発見しました。

このパイロットプログラムは、Movie Genが従来の映画製作に取って代わるものではないものの、監督に視覚要素とオーディオ要素を迅速かつ創造的に試すための新しい方法を提供することを示しました。映画製作者はまた、ツールの編集機能により、背景音、効果、および視覚スタイルをより自由に操作できることを高く評価しました。 

__wf_reserved_inherit
図8. Meta Movie Genを使用して作成された短編映画のフレーム。

主なポイント

Meta Movie Genは、生成AIを使用して、簡単なテキスト記述から高品質のビデオとサウンドを作成するための進歩です。このツールは、ユーザーがリアルでカスタムなビデオを簡単に作成するのに役立ちます。正確なビデオ編集やパーソナライズされたメディア生成などの機能を備えたMeta Movie Genは、ストーリーテリング、映画製作、およびそれ以降の分野で新たな可能性を開く柔軟なツールセットを提供します。Meta Movie Genは、詳細で役立つビジュアルを簡単に作成できるようにすることで、さまざまな分野でビデオの作成方法と使用方法を変革し、AI主導のコンテンツ作成の新しい標準を確立しています。

詳細については、GitHubリポジトリにアクセスし、コミュニティにご参加ください。ソリューションページで、自動運転車農業におけるAIアプリケーションをご覧ください。🚀

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました