用語集

テキストからビデオへ

Text-to-Video AIでテキストを魅力的な動画コンテンツに変換。マーケティングや教育などのために、ダイナミックで一貫性のある動画を簡単に作成できます!

Ultralytics HUB で
を使ってYOLO モデルをシンプルにトレーニングする。

さらに詳しく

Text-to-Videoは、Generative AI(ジェネレーティブAI)の中で急速に進歩している分野であり、テキストの説明やプロンプトから直接ビデオシーケンスを作成することに焦点を当てている。この技術は、洗練された機械学習(ML)モデルを採用しており、多くの場合、トランスフォーマーや 拡散モデルのようなアーキテクチャに基づいて構築され、入力テキストの意味と文脈を解釈し、動的で視覚的に一貫性のあるビデオコンテンツに変換する。静的な画像生成から大きく前進し、動き、時間的な一貫性、物語の進行といった複雑な要素を導入し、より高度なディープラーニング(DL)技術を要求している。

テキストからビデオへの変換

核となるプロセスでは、テキストの説明と対応するビデオクリップのペアを含む膨大なデータセットでモデルを学習する。この学習段階で、モデルはバックプロパゲーションや 勾配降下のようなテクニックを使用して、単語、概念、行動、およびそれらの視覚的表現間の複雑な関係を経時的に学習する。テキストプロンプトは多くの場合、意味内容を理解するために大規模言語モデル(Large Language Model:LLM)に似たコンポーネントによって処理され、ビデオ生成部はフレームのシーケンスを合成する。新しいテキストプロンプトが与えられると、モデルはこの学習された知識を利用して、視覚的妥当性とプロンプトへの準拠を目指し、ビデオを形成するフレームのシーケンスを生成する。この能力を示す著名な研究プロジェクトには、GoogleLumiereプロジェクトや OpenAIのSoraがある。基礎となるアーキテクチャは、多くの場合、成功した画像生成モデルの概念を、ビデオの時間的次元に適応させたものである。

関連技術との主な違い

他の生成タスクと関連しているが、Text-to-Videoにはそれを区別するユニークな特徴がある:

  • テキストから画像へテキストから静止画像を生成する。Text-to-Videoは、時間の次元を追加することによってこれを拡張し、動きと変化を首尾一貫して描写するフレームのシーケンスを生成することをモデルに要求する。ジェネレーティブAIの動向については、こちらをご覧ください。
  • 音声合成テキスト入力を音声出力に変換する。Text-to-Videoが視覚的出力に重点を置いているのに対し、これは純粋に音声生成を扱う。関連する音声タスクとしての音声認識については、こちらをご覧ください。
  • 音声からテキストへ話し言葉を書き言葉に変換する。これはText-to-Speechの逆で、Text-to-Videoのテキストからビジュアルへの生成とは異なり、オーディオからテキストへの領域で動作する。自然言語処理(NLP)を理解することが、これらの技術の鍵となる。
  • ビデオ編集ソフトウェア従来のソフトウェアでは、既存のビデオ映像を手作業で操作する必要がありました。Text-to-Videoは、テキストプロンプトに基づいて、全く新しいビデオコンテンツをゼロから生成します。

実世界での応用

テキストをビデオに変換する技術は、さまざまな領域で可能性を広げる:

  • マーケティングと広告:企業は、簡単なテキスト説明から短いプロモーションビデオ、製品デモンストレーション、ソーシャルメディアコンテンツを素早く生成することができ、制作時間とコストを大幅に削減することができます。例えば、ある企業は、広告コンテンツを生成するために、「当社の新しいエコフレンドリーな水筒が、日差しの強いハイキングで使用されている様子を映した15秒のビデオ」と入力することができる。Synthesiaのようなプラットフォームは、関連するAI動画生成ツールを提供している。
  • 教育とトレーニング:教育者は、授業計画やテキストの説明から、魅力的な視覚教材やシミュレーションを作成できる。例えば、歴史の教師は、テキストで説明された特定の歴史的出来事を描いた短いクリップを生成し、学習をより没入感のあるものにすることができる(参考文献:教育におけるAI)。
  • エンターテインメントとコンテンツ制作:映画制作者、ゲーム開発者、アーティストは、アイデアを迅速にプロトタイプ化したり、スクリプトに記述されたシーンを視覚化したり、さまざまなプラットフォーム向けにユニークなビデオコンテンツを生成したりすることができます。RunwayMLや Pika Labsのようなツールは、創造的な探求のためのアクセスしやすいインターフェイスを提供します。
  • アクセシビリティ:シーンテキストまたはメタデータに基づいて、視覚障害者のためのビデオ説明または要約を生成する。

課題と今後の方向性

急速な進歩にもかかわらず、Text-to-Videoは大きな課題に直面している。完全な時間的一貫性(オブジェクトが時間の経過とともにリアルに動作する)を持つ、長時間の高解像度ビデオの生成は依然として困難である(Research on Video Consistency)。オブジェクトの相互作用を正確に制御し、シーンをまたいでキャラクタの同一性を維持し、非現実的な物理現象を回避することは、活発な研究分野である。さらに、訓練データから学習される潜在的なAIの偏りを軽減することは、責任ある配備のために極めて重要です(AIの倫理について読む)。今後の開発では、映像の一貫性、ユーザーの操作性、生成速度の向上、音声生成のような他のAIモダリティとText-to-Videoの統合に重点を置く。Ultralyticsの中核的な焦点とは異なるが Ultralytics YOLOの中核である物体検出画像セグメンテーション、解析とは異なるが、その根底にあるコンピュータ・ビジョンの原理は重なり合っている。Ultralytics HUBのようなプラットフォームは、将来的にこのような生成モデルを統合または管理し、技術が成熟するにつれてモデルの展開を容易にする可能性がある。

すべて読む