ヨロビジョン深圳
深セン
今すぐ参加

ストリーミングにおけるVision AIの舞台裏を見る

Abirami Vina

3分で読めます

2024年12月10日

コンピュータビジョンが、パーソナライズされたレコメンデーションやリアルタイムのコンテンツ分析を通じて、ストリーミングプラットフォームをどのように強化し、ユーザーエクスペリエンスを向上させるかを探ります。

ストリーミングプラットフォームが、お気に入りの番組をとても簡単に見られるようにしているのはなぜか疑問に思ったことはありませんか?少し前までは、エンターテインメントは大きく異なっていました。テレビのスケジュールは固定されており、視聴者は一般的に放送されているものを見ていました。ストリーミングサービスは、このパラダイムを変えました。調査によると、世界のビデオストリーミング市場は2023年に1,068億3,000万ドルの価値があり、2034年までに8,658億5,000万ドルに達すると予想されています。

人工知能(AI)はこの進化において極めて重要な役割を果たしてきました。特に、この分野ではコンピュータビジョンのイノベーションが増加しています。Vision AIにより、ストリーミングプラットフォームは、フレームを分析し、パターンを認識することで、ビデオコンテンツを理解し、解釈できます。 

視覚データを処理することにより、コンピュータビジョンは、プラットフォームがよりスマートな推奨事項を作成し、コンテンツの整理を改善し、インタラクティブな機能を強化するのに役立ちます。この記事では、コンピュータビジョンがストリーミングプラットフォームによるコンテンツ配信の改善、ユーザーエンゲージメントの向上、およびコンテンツの発見の簡素化にどのように役立つかを探ります。始めましょう!

Fig 1. グローバルビデオストリーミング市場。

コンピュータビジョンとストリーミングプラットフォームに関する検証

ストリーミングプラットフォームに関して、コンピュータビジョンはビデオを個々のフレームに分解し、Ultralytics YOLO11のようなモデルを使用して分析するのに役立ちます。YOLO11は、ラベル付けされた例の大規模なデータセットでカスタムトレーニングできます。ラベル付けされた例とは、オブジェクト、発生しているアクション、またはシーンの種類などの詳細でタグ付けされた画像またはビデオフレームです。これにより、モデルは同様のパターンを認識することを学習できます。これらのモデルは、オブジェクトを検出し、シーンを分類し、リアルタイムでパターンを識別し、コンテンツに関する貴重な洞察を提供できます。

この仕組みをより良く理解するために、コンピュータービジョンがストリーミングプラットフォームでどのように適用され、ユーザーエクスペリエンスを最適化し、コンテンツをよりアクセスしやすくしているかの例を見てみましょう。

パーソナライズされたレコメンデーションのためのシーン認識

シーン認識は、画像またはビデオフレームを、その視覚的なコンテンツとテーマに基づいて分類するコンピュータビジョン技術です。これは、個々のオブジェクトではなく、シーン全体の状況や雰囲気を特定することに重点を置いた、特殊な画像分類の一形態と考えることができます。 

例えば、シーン認識システムは、色、テクスチャ、照明、オブジェクトなどの特徴を分析することにより、シーンを「予備の寝室」、「森の小道」、「岩の多い海岸」のようなカテゴリにグループ化するかもしれません。シーン認識により、ストリーミングプラットフォームはコンテンツに効果的にタグを付け、整理することができます。

Fig 2. AIを使用したシーンのカテゴリ分け。

パーソナライズされたおすすめにおいて重要な役割を果たします。ユーザーが「晴れた海岸」のような穏やかな屋外の風景や、「スタイリッシュなキッチン」のようなトレンディなインテリアを特徴とするコンテンツをよく視聴する場合、プラットフォームは同様のビジュアルを持つ番組や映画をおすすめできます。シーン認識は、コンテンツの発見を簡素化し、ユーザーの視聴の好みに合ったおすすめを提示します。

画像とサムネイルの生成

画像とサムネイルの生成は、視聴者を引きつけ、重要な瞬間を強調するために、動画の視覚的なプレビューを作成するプロセスです。AIとコンピュータビジョンは、このプロセスを自動化して、サムネイルが関連性があり、目を引くようにすることができます。

プロセスの仕組みは次のとおりです。

  • フレーム分析: コンピュータビジョンシステムは、数千のビデオフレームをスキャンして、傑出した瞬間を特定することから始めることができます。これには、感情的な表現、重要なアクション、またはビデオのコンテンツを最もよく表す視覚的に印象的なシーンが含まれます。
  • モーション分析: 潜在的なフレームが選択されると、Vision AIを使用して、それらが鮮明でぼやけていないことを確認し、サムネイルの全体的な視覚的品質を高めることができます。
  • 物体検出とシーン分析:YOLO11(物体検出やインスタンスセグメンテーションなどのコンピュータビジョンタスクをサポート)などのモデルを使用すると、システムはオブジェクト、キャラクター、設定など、フレーム内の重要な要素を検出できます。このステップでは、サムネイルがビデオの本質を正確に反映していることを再確認します。
  • 画像補正: 選択されたフレームは、カメラの角度、照明、および構図などの要素を考慮して調整されます。 
  • パーソナライゼーション: 最後に、機械学習アルゴリズムを使用して、ユーザーの好みや視聴履歴に基づいてサムネイルをパーソナライズできます。これにより、視覚的な要素を個々の好みに合わせて調整し、注意を引きつけ、エンゲージメントを高める可能性が高まります。

同様の現実世界のアプリケーションの良い例としては、Netflixのコンピュータビジョンの使用によるサムネイルの自動生成があります。フレームを分析して感情、コンテキスト、映画の詳細を検出することにより、Netflixは個々の視聴者の好みに共鳴するサムネイルを作成します。たとえば、ロマンチックコメディを楽しむユーザーには、陽気な瞬間を強調するサムネイルが表示され、アクションファンには、激しい、高エネルギーのシーンが表示される場合があります。

図3. テレビ番組のサムネイルは、視聴者の好みに合わせてカスタマイズ可能。

自動コンテンツプレビュー 

ストリーミングプラットフォームをスクロールすると、表示される短い目を引くプレビューはランダムではありません。それらは、人々の注意を引き、ビデオの最も魅力的な瞬間を強調するために、コンピュータビジョンなどのテクノロジーを使用して慎重に作成されています。最高の瞬間が選択されると、それらはスムーズで魅力的なプレビューにまとめられます。 

それらの瞬間を選択する背後にあるプロセスには、いくつかの重要なステップが含まれます。

  • シーンセグメンテーション: ビデオを、照明、カメラアングル、またはビジュアルの変化など、自然なトランジションに基づいてより小さなセクションに分割します。
  • モーション検出:ダイナミックでアクション満載の瞬間が特定され、プレビューが確実に注目を集めるようにします。
  • 顕著性モデル: 色、明るさ、コントラストなどの視覚的な特徴を分析して、シーンの中で最も目を引く部分を特定します。
  • 表情分析: 強い感情表現のある瞬間を選択して、視聴者とのより深い繋がりを作り出します。

コンテンツの分類とタグ付け

ジャンル、ムード、または特定のテーマで映画を閲覧する機能は、正確なコンテンツの分類とタグ付けに依存しています。人気のあるストリーミングプラットフォームは、コンピュータビジョンを使用して、オブジェクト、アクション、設定、または感情のビデオを分析し、関連するタグを割り当てることによって、このプロセスを自動化します。これにより、大規模なメディアライブラリを整理し、コンテンツを視聴者の好みに合わせて、パーソナライズされた推奨事項をより正確にすることができます。

シーンセグメンテーション、物体検出、行動認識などのVision AI技術は、コンテンツに効果的にタグを付けるために使用できます。物体、感情的なトーン、行動などの主要な要素を識別することにより、各タイトルに関する詳細なメタデータを作成します。次に、このメタデータを機械学習を使用して分析し、ユーザーが探しているものを簡単に見つけ、全体的なブラウジング体験を向上させるカテゴリを作成できます。

図4. パーソナライズされたストリーミングレコメンデーションのための自動コンテンツ分類の例。

AIを活用したストリーミングプラットフォームの利点と課題

コンピュータビジョンは、ユーザーエクスペリエンスを向上させる革新的な機能により、ストリーミングプラットフォームを改善しています。考慮すべき独自の利点をいくつかご紹介します。

  • 適応型ストリーミング品質: コンピュータビジョンは、ビデオシーンを分析して、より高品質を必要とする動きの多い瞬間や詳細な瞬間を特定できます。これらの洞察を使用して、ユーザーのデバイスとインターネット速度に合わせてストリーミング品質を調整できます。
  • リアルタイム行動監視: AIを使用してライブストリームを監視し、リアルタイムで著作権侵害を検出できます。また、オーバーレイ(ロゴや広告など)の追加や、他のプラットフォームへのストリームの再放送などの不正なアクションを識別することもできます。
  • エネルギー効率の高いコンテンツ配信: Vision AIの洞察は、ユーザーの需要と視聴パターンを分析することで、コンテンツ配信を最適化できます。人気のあるコンテンツをローカルにキャッシュし、ビデオ品質を調整することで、帯域幅の使用量とエネルギー消費量を削減し、ストリーミングをより持続可能にします。

さまざまな利点がある一方で、これらのイノベーションを実装する際には、留意すべき特定の制約事項もあります。

  • 高い計算需要: コンピュータビジョンアルゴリズムは、ビデオコンテンツを処理および分析するために高い計算能力を必要とし、コストとエネルギー消費の増加につながる可能性があります。
  • データのプライバシーに関する懸念: コンピュータビジョンは、ユーザーのインタラクションとコンテンツの大規模なデータセットに依存しているため、データのプライバシーとセキュリティに関する懸念が生じる可能性があります。
  • データの偏り: コンピュータビジョンモデルは、学習データの偏りを反映する可能性があります。これにより、特定の種類のコンテンツが優先され、推奨の多様性が低下する可能性があります。

ストリーミングプラットフォームにおける AI の未来

エッジコンピューティングや3D技術などのイノベーションは、エンターテインメントの未来を形作るのに役立っています。エッジコンピューティングは、動画がストリーミングされる場所の近くで動画を処理するために使用できます。遅延を減らし、帯域幅を節約できます。これは、ライブストリーミングやインタラクティブコンテンツにとって特に重要です。応答時間が速いほど、視聴者にとってよりスムーズで魅力的な体験になります。

同時に、3D技術はショー、映画、インタラクティブな機能に奥行きとリアリズムを加えています。これらの進歩は、拡張現実(AR)や仮想現実(VR)のような新しい可能性も開きます。VRヘッドセットのようなデバイスを使用すると、視聴者は完全に没入できる環境に入ることができます。デジタル世界と物理世界との境界線を曖昧にして、まったく新しいレベルのエンゲージメントを生み出すことができます。

Fig 5. VR駆動のインタラクティブな体験によるストリーミングの再構築。

主なポイント

コンピュータビジョンは、ビデオ分析をよりスマートに、コンテンツの分類をより速く、推奨事項をよりパーソナライズすることで、ストリーミングプラットフォームを再定義しています。Ultralytics YOLO11のようなモデルを使用すると、プラットフォームはオブジェクトを検出し、シーンをリアルタイムで分類できます。これにより、コンテンツのタグ付けが容易になり、番組や映画の推奨方法が改善されます。

Vision AI と統合されたストリーミングプラットフォームは、視聴者にとってより魅力的な体験を提供すると同時に、よりスムーズで効率的なプラットフォーム運用を保証します。テクノロジーの進歩に伴い、ストリーミングサービスはよりインタラクティブになり、より豊かで没入型のエンターテインメント体験を提供するようになるでしょう。

AIにご興味がありますか?GitHubリポジトリにアクセスして詳細を確認し、コミュニティとつながりましょう。ヘルスケアにおけるAI農業におけるコンピュータビジョンのさまざまなアプリケーションをご覧ください。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました