Meta Movie Genが動画と音声の制作をどのように再定義しているかをご覧ください。このモデルがどのように正確な動画編集を提供し、パーソナライズされたメディア制作をサポートするかを学びます。

Meta Movie Genが動画と音声の制作をどのように再定義しているかをご覧ください。このモデルがどのように正確な動画編集を提供し、パーソナライズされたメディア制作をサポートするかを学びます。
あなたが意欲的な映画製作者であろうと、視聴者向けに動画を作成するコンテンツクリエイターであろうと、創造性を広げるAIツールを持つことは常に役立ちます。最近、Metaは、Meta Movie Genと呼ばれる最新の生成動画モデルを発表しました。
メディアおよびエンターテインメントにおける世界の生成AI市場は、2033年までに115.7億ドルに達すると予測されており、Runway、OpenAI、Metaなどの企業が画期的なイノベーションをリードしています。特にMeta Movie Genは、映画製作、動画コンテンツ制作、デジタルストーリーテリングなどのアプリケーションに最適であり、高品質のAI生成動画を通じて創造的なビジョンをこれまで以上に簡単に実現できます。この記事では、Meta Movie Genとその仕組みについて説明します。また、そのアプリケーションについても詳しく見ていきます。それでは始めましょう!
Meta Movie Genについて説明する前に、その成り立ちを見てみましょう。
生成AIに関連するMetaの研究努力は、Make-A-Sceneシリーズのモデルから始まりました。この研究は、アーティストや先見の明のある人々が想像力を実現するのに役立つマルチモーダル生成AI手法に焦点を当てています。アーティストは、画像、オーディオ、ビデオ、または3Dアニメーションを入力して、目的の画像出力を得ることができます。イノベーションにおける次の飛躍は、Llama Image Foundationモデル(Emu)のような拡散モデルによってもたらされ、これにより、はるかに高品質の画像やビデオを生成できるようになり、画像編集が可能になりました。
Movie Genは、生成AI研究に対するMetaの最新の貢献です。これは、前述のすべてのモダリティを組み合わせ、さらにきめ細かい制御を可能にし、人々がモデルをより創造的な方法で使用できるようにします。Meta Movie Genは、テキストからビデオ、テキストからオーディオ、テキストから画像など、さまざまな種類のメディアを生成するための基盤モデルのコレクションです。これは4つのモデルで構成されており、ライセンスされたデータセットと公開されているデータセットの組み合わせでトレーニングされています。
これらのモデルの概要を簡単に説明します。
Movie Gen Videoモデルの作成とトレーニングには、いくつかの重要なプロセスが関わっています。最初のステップは、主に人間の活動に関する画像やビデオクリップなど、視覚データの収集と準備であり、品質、動き、関連性に基づいてフィルタリングされました。次に、各シーン内で何が起こっているかを説明するテキストキャプションとデータをペアにしました。 MetaのLLaMa3-Videoモデルを使用して生成されたキャプションは、各シーンの内容に関する豊富な詳細を提供し、モデルの視覚的なストーリーテリング機能を強化しました。
トレーニングプロセスは、モデルがテキストを低解像度の画像に変換することを学習することから始まりました。その後、テキストから画像への変換とテキストからビデオへのトレーニングを組み合わせ、ますます高品質のビジュアルを使用することで、フルビデオクリップの作成に進みました。
Temporal Autoencoder(TAE)と呼ばれるツールは、大量のデータを効率的に管理するためにビデオを圧縮しました。ファインチューニングにより、ビデオの品質がさらに向上し、モデル平均化(複数のモデル出力を組み合わせて、よりスムーズで一貫性のある結果を得る手法)により、出力の一貫性が向上しました。最後に、最初は768pだったビデオは、空間アップサンプラー技術を使用して鮮明な1080p解像度にアップスケールされました。これにより、ピクセルデータを追加して画像の解像度を高め、より鮮明なビジュアルを実現しました。その結果、高品質で詳細なビデオ出力が得られました。
Meta Movie Genモデルは、主に4つの異なる機能をサポートしています。それぞれの機能について詳しく見ていきましょう。
Meta Movie Genは、高品質のビデオを生成できます。これらのビデオクリップは、最大16秒の長さで、16 fps(1秒あたりのフレーム数)で実行でき、テキストプロンプトから動き、インタラクション、カメラアングルを捉えたリアルなビジュアルを作成します。130億パラメータのオーディオモデルと組み合わせることで、アンビエントサウンド、効果音、音楽などの同期されたオーディオを生成し、ビジュアルに合わせることができます。
この設定により、ビジュアルとオーディオの両方がさまざまなシーンやプロンプトで一貫してリアルに保たれる、シームレスでリアルな体験が保証されます。たとえば、これらのモデルは、タイの人気のコビトカバであるムーデンのビデオクリップを作成するために使用されました。
Meta Movie Genモデルのもう1つの興味深い機能は、パーソナライズされたビデオ生成です。ユーザーは、人物の画像と、ビデオクリップをどのように生成するかを説明するテキストプロンプトを提供できます。これにより、参照人物が含まれ、テキストプロンプトで指定された豊富な視覚的詳細が組み込まれたビデオが生成されます。モデルは、両方の入力(画像とテキスト)を使用して、人物のユニークな外観と自然な体の動きを維持しながら、プロンプトで説明されているシーンを正確に再現します。
Movie Gen Editモデルを使用すると、ユーザーはビデオクリップとテキストプロンプトの両方を入力として提供して、ビデオをクリエイティブに編集できます。このモデルは、ビデオ生成と高度な画像編集を組み合わせて、要素の追加、削除、置換など、非常に具体的な編集を実行します。また、ビデオクリップの背景や全体的なスタイルを変更するなど、グローバルな変更も実行できます。しかし、このモデルを真にユニークなものにしているのは、その精度です。編集が必要な特定のピクセルのみをターゲットにし、残りの部分はそのままにすることができます。これにより、元のコンテンツを可能な限り保持できます。
生成AIモデルに加えて、Metaは生成AIモデルのパフォーマンスをテストするためのベンチマークツールのスイートであるMovie Gen Benchも導入しました。これには、Movie Gen Video BenchとMovie Gen Audio Benchの2つの主要なツールが付属しています。どちらも、ビデオおよびオーディオ生成のさまざまな側面をテストするように設計されています。
両方のツールを簡単に紹介します。
Meta Movie Genモデルがどのようなもので、どのように機能するかを説明したので、次に、その実用的な応用例の1つを見ていきましょう。
MetaのMovie Genの最もエキサイティングな用途の1つは、AIを活用したビデオおよびオーディオ制作を通じて、映画製作をどのように変革できるかということです。Movie Genを使用すると、クリエイターは簡単なテキストプロンプトから高品質のビジュアルとサウンドを生成し、ストーリーを伝える新しい方法を開くことができます。
実際、MetaはBlumhouseおよび映画製作者グループと提携し、Movie Genが創作プロセスをどのようにサポートできるかについてフィードバックを集めました。アニーシュ・チャガンティ、スパーロック姉妹、ケイシー・アフレックなどの映画製作者は、ムード、トーン、および視覚的な方向性を捉えるツールの能力をテストしました。彼らは、このモデルが新鮮なアイデアを生み出すのに役立つことを発見しました。
このパイロットプログラムは、Movie Genが従来の映画製作に取って代わるものではないものの、監督に視覚要素とオーディオ要素を迅速かつ創造的に試すための新しい方法を提供することを示しました。映画製作者はまた、ツールの編集機能により、背景音、効果、および視覚スタイルをより自由に操作できることを高く評価しました。
Meta Movie Genは、生成AIを使用して、簡単なテキスト記述から高品質のビデオとサウンドを作成するための進歩です。このツールは、ユーザーがリアルでカスタムなビデオを簡単に作成するのに役立ちます。正確なビデオ編集やパーソナライズされたメディア生成などの機能を備えたMeta Movie Genは、ストーリーテリング、映画製作、およびそれ以降の分野で新たな可能性を開く柔軟なツールセットを提供します。Meta Movie Genは、詳細で役立つビジュアルを簡単に作成できるようにすることで、さまざまな分野でビデオの作成方法と使用方法を変革し、AI主導のコンテンツ作成の新しい標準を確立しています。
詳細については、GitHubリポジトリにアクセスし、コミュニティにご参加ください。ソリューションページで、自動運転車や農業におけるAIアプリケーションをご覧ください。🚀