YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
ビジョンAI

Meta Movie Gen: コンテンツ制作の再構築

Meta Movie Genがビデオおよびサウンド制作をどのように再定義しているかをご覧ください。このモデルがどのように正確なビデオ編集を提供し、パーソナライズされたメディア制作をサポートするかを解説します。

ABAbirami Vina
4 min read
Meta Movie GenによるAIビデオ制作

駆け出しの映画制作者であれ、視聴者向けに動画を作成することを楽しむコンテンツクリエイターであれ、創造性を広げるAIツールを持つことは常に役立ちます。最近、Metaは、Meta Movie Genとして知られる最新の生成動画モデルを発表しました。

メディアおよびエンターテインメント業界における世界的な生成AI市場は、2033年までに115億7000万ドルに達すると予測されており、Runway、OpenAI、およびMetaのような企業が画期的なイノベーションを先導しています。特にMeta Movie Genは、映画制作、動画コンテンツ作成、デジタルストーリーテリングなどのアプリケーションに最適であり、高品質なAI生成動画を通じて創造的なビジョンをこれまで以上に容易に実現できるようにします。本記事では、Meta Movie Genとその仕組みについて解説し、いくつかのアプリケーションについても詳しく見ていきます。それでは始めましょう!

Meta Movie Genを使用して生成されたビデオクリップのフレーム

Fig 1。Meta Movie Genを使用して生成された動画クリップのフレーム。

Link to this sectionMeta Movie Genとは何ですか?#

Meta Movie Genとは何かを議論する前に、それがどのようにして生まれたのかを見ていきましょう。

Meta’s research efforts related to generative AI started with their Make-A-Scene series of models. This research focuses on a multimodal generative AI method that helps artists and visionaries bring their imagination to life. Artists can input images, audio, videos, or 3D animations to get the image output that they desire. The next leap in innovation came with diffusion models like the Llama Image Foundation models (Emu), which made it possible to generate images and videos of much higher quality and enabled image editing.

Make-A-Sceneのスケッチとテキスト入力を使用して画像を生成

Fig 2。Make-A-Sceneのスケッチとテキスト入力を使用して生成された画像を得る例。

Movie Genは、生成AI研究に対するMetaの最新の貢献です。これは、前述のすべてのモダリティを組み合わせ、よりきめ細かな制御を可能にすることで、人々がより創造的な方法でモデルを使用できるようにします。Meta Movie Genは、テキストから動画への変換、テキストから音声への変換、およびテキストから画像への変換など、さまざまな種類のメディアを生成するための基盤モデルの集合体です。これには4つのモデルが含まれており、ライセンス供与されたデータセットと公開されているデータセットの組み合わせでトレーニングされています。

これらのモデルの概要を以下に示します。

  • Movie Gen Videoモデル: テキストプロンプトから高品質な動画を生成する300億パラメータのモデル。
  • Movie Gen Audioモデル: 動画コンテンツと同期するサウンドトラックを作成できる130億パラメータのモデル。
  • Personalized Movie Gen Videoモデル: テキストプロンプトと単一の画像に基づいて特定の人物の動画を生成し、その容姿を保持します。
  • Movie Gen Editモデル: 実写動画やフィクション動画に対して、詳細なテキストベースの動画編集を可能にするモデル。

Link to this sectionMeta Movie Gen動画モデルのトレーニング#

Movie Gen Videoモデルの作成とトレーニングには、いくつかの重要なプロセスが含まれていました。最初のステップは、主に品質、動き、関連性でフィルタリングされた人間の活動を含む画像や動画クリップなどの視覚データを収集および準備することでした。そのデータは、各シーンで何が起こっているかを説明するテキストキャプションと組み合わされました。MetaのLLaMa3-Videoモデルを使用して生成されたキャプションは、各シーンの内容に関する豊富な詳細を提供し、モデルの視覚的なストーリーテリング能力を向上させました。

Movie Gen Videoモデルの事前学習データパイプラインの概要

Fig 3。Movie Gen Videoモデルの事前トレーニングデータキュレーションパイプラインの概要。

トレーニングプロセスは、モデルがテキストを低解像度の画像に変換することを学習することから始まりました。その後、ますます高品質な視覚データを使用して、テキストから画像への変換とテキストから動画への変換トレーニングを組み合わせ、完全な動画クリップを作成する段階へと進みました。

Temporal Autoencoder (TAE) というツールが動画を圧縮し、大量のデータを効率的に管理しました。ファインチューニングによって動画品質がさらに向上し、モデル平均化法(複数のモデル出力を組み合わせて、よりスムーズで一貫性のある結果を得る方法)によって出力の一貫性が確保されました。最後に、最初は768pだった動画が、空間アップサンプラー技術を使用してシャープな1080p解像度にアップスケールされました。この技術は、ピクセルデータを追加して画像を鮮明にすることで解像度を向上させます。その結果、高品質で詳細な動画出力が得られました。

Link to this sectionMeta Movie Genの能力を探る#

Meta Movie Genモデルは、主に4つの異なる機能をサポートしています。それぞれを詳しく見ていきましょう。

Link to this section動画と音声の生成#

Meta Movie Genは高品質な動画を生成できます。これらの動画クリップは最大16秒の長さで、16 fps(フレーム毎秒)で動作し、テキストプロンプトから動き、相互作用、カメラアングルを捉えたリアルな視覚効果を作成します。130億パラメータの音声モデルと組み合わせることで、映像に合わせて周囲の音、フォーリーエフェクト、音楽などの同期された音声を生成できます。

この構成により、視覚と音声の両方が整列し、さまざまなシーンやプロンプト全体でリアルに保たれる、シームレスで生き生きとした体験が保証されます。例えば、これらのモデルは、タイの有名なコビトカバであるMoo Dengの動画クリップを作成するために使用されました。

Meta Movie Genを使用して作成されたMoo Dengビデオクリップのフレーム

Fig 4。MetaのMovie Genを使用して作成されたMoo Dengの動画クリップのフレーム。

Link to this sectionパーソナライズされた動画生成#

Meta Movie Genモデルのもう一つの興味深い能力は、パーソナライズされた動画生成です。ユーザーは人物の画像と、動画クリップをどのように生成すべきかを説明するテキストプロンプトを提供することができ、その結果、参照された人物を含み、テキストプロンプトで指定された豊かな視覚的詳細を組み込んだ動画が生成されます。モデルは両方の入力(画像とテキスト)を使用して、人物の独特な外見と自然な身体の動きを保持しながら、プロンプトで説明されたシーンを正確に再現します。

モデルのパーソナライズされたビデオ生成機能の例

Fig 5。モデルのパーソナライズされた動画生成能力の例。

Link to this section正確な動画編集#

Movie Gen Editモデルを使用すると、ユーザーは動画クリップとテキストプロンプトの両方を入力として提供し、動画を創造的な方法で編集できます。このモデルは動画生成と高度な画像編集を組み合わせ、要素の追加、削除、置換などの非常に具体的な編集を実行します。また、動画クリップの背景を変更したり、全体的なスタイルを変更したりするようなグローバルな変更も実行できます。しかし、このモデルを真にユニークにしているのはその精度です。編集が必要な特定のピクセルのみをターゲットにし、残りの部分はそのままにしておくことができます。これにより、元のコンテンツが可能な限り保持されます。

Movie Gen Editモデルのビデオ編集機能の例

Fig 6。Movie Gen Editモデルの動画編集能力の様々な例。

Link to this sectionMeta Movie Genのベンチマークツール#

生成AIモデルとともに、Metaは生成AIモデルの性能をテストするためのベンチマークツールスイートであるMovie Gen Benchも導入しました。これには、Movie Gen Video BenchとMovie Gen Audio Benchという2つの主要なツールが付属しています。どちらも、動画および音声生成の異なる側面をテストするように設計されています。

両ツールの概要を以下に示します。

  • Movie Gen Video Bench: 人間の活動、動物自然の風景物理現象、さらには珍しい被写体や活動など、幅広いテストカテゴリをカバーする1003個のプロンプトで構成されています。この評価ベンチマークが特に価値があるのは、動きのレベルをカバーしていることであり、これにより動画生成モデルがペースの速いシーケンスと遅いシーケンスの両方でテストされることが保証されます。
  • Movie Gen Audio Bench: 527個のプロンプト全体で音声生成能力をテストするように設計されています。これらのプロンプトは生成された動画と組み合わされ、モデルが効果音や音楽を視覚コンテンツとどれだけうまく同期できるかを評価します。

Movie Gen Bench評価プロンプトとワードクラウドの内訳

Fig 7. この図は評価プロンプトの内訳を示しており、左側にコンセプトのリスト、右側に頻繁に使用される名詞と動詞のワードクラウドが表示されています。

Link to this sectionMeta Movie Genの実用的なアプリケーション#

Meta Movie Genモデルとは何か、そしてどのように機能するかを説明しましたので、その実用的なアプリケーションの1つを探ってみましょう。

Link to this section映画制作におけるMovie Gen AIイノベーション#

One of the most exciting uses of Meta's Movie Gen is how it can transform filmmaking through AI-powered video and audio creation. With Movie Gen, creators can generate high-quality visuals and sounds from simple text prompts, opening up new ways to tell stories.

実際、MetaはBlumhouseおよび映画制作者グループと協力し、Movie Genがどのようにクリエイティブプロセスを最もよくサポートできるかについてフィードバックを収集しました。Aneesh Chaganty、Spurlock Sisters、Casey Affleckといった映画制作者たちが、ムード、トーン、および視覚的な方向性を捉えるツールの能力をテストしました。彼らは、これらのモデルが新しいアイデアを刺激するのに役立つことを発見しました。

このパイロットプログラムは、Movie Genが従来の映画制作に取って代わるものではないものの、監督が視覚的および音声的な要素を迅速かつ創造的に実験するための新しい方法を提供することを示しました。映画制作者たちはまた、ツールの編集機能によって、背景音、エフェクト、視覚スタイルをより自由に試すことができる点を高く評価しました。

Meta Movie Genを使用して作成された短編映画のフレーム

Fig 8。Meta Movie Genを使用して作成された短編映画のフレーム。

Link to this section重要なポイント#

Meta Movie Genは、生成AIを使用して単純なテキスト記述から高品質な動画や音声を生成するための前進です。このツールは、ユーザーがリアルでカスタムな動画を簡単に作成できるように支援します。正確な動画編集やパーソナライズされたメディア生成などの機能を備えたMeta Movie Genは、ストーリーテリング、映画制作などを超えた新たな可能性を開く柔軟なツールセットを提供します。Meta Movie Genは、詳細で有用な視覚効果の作成を容易にすることで、さまざまな分野で動画が作成および使用される方法を変革し、AI主導のコンテンツ作成の新しい基準を打ち立てています。

詳細については、GitHubリポジトリをご覧になり、私たちのコミュニティにご参加ください。自動運転車農業におけるAIの応用については、ソリューションページをご覧ください。🚀

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう