YOLO Vision 2025にご期待ください!
2025年9月25日
10:00 — 18:00(英国夏時間)
ハイブリッドイベント
Yolo Vision 2024
用語集

ビデオ理解は、いくつかの主要なCVタスクを基盤とする多層的なプロセスです。パイプラインは通常、個々のフレームを分析してキーとなる要素を特定することから始まります。

動画内のアクションやイベントを解釈する高度なAIであるVideo Understandingについて解説します。その仕組みと、自動運転やスマートセキュリティにおけるアプリケーションについて学びましょう。

ビデオ理解は、人工知能(AI)コンピュータビジョン(CV)の高度な分野であり、機械がビデオの内容を自動的に解釈および分析することを可能にします。静止画像の処理とは異なり、ビデオ理解では、フレームのシーケンスを分析して、オブジェクトだけでなく、それらのアクション、インタラクション、およびイベントの時間的コンテキストを認識します。その目的は、人間がダイナミックなシーンを認識して解釈するのと同じように、ビデオデータを包括的に理解することです。この機能は、自動運転車から自動監視やコンテンツモデレーションまで、幅広いアプリケーションの基盤となります。

動画理解の仕組み

ビデオ理解システムは通常、複数のAI技術を統合して、視覚的および時間的情報を処理および解釈します。プロセスは、個々のビデオフレームで実行される基本的なコンピュータビジョンタスクから始まります。これらのタスクには、多くの場合、以下が含まれます。

  • 物体検出: 各フレーム内のオブジェクトを識別して特定します。Ultralytics YOLOのようなモデルは、この初期段階に非常に効果的です。
  • 物体追跡: 識別された物体を一連のフレームにわたって追跡し、その動きと持続性を理解します。
  • Pose Estimation(姿勢推定): 人体の姿勢とキーポイントを認識し、人間の行動を分析する上で非常に重要です。
  • 画像セグメンテーション: フレーム内の各ピクセルを分類して、オブジェクトの正確な形状と境界を理解します。

これらの空間的特徴が抽出されると、システムは、リカレントニューラルネットワーク(RNN)、または最近のアーキテクチャではより一般的なTransformerネットワークなどの、シーケンシャルデータ用に設計されたモデルを使用して、経時的にそれらを分析します。これらのモデルは、オブジェクトとシーンがどのように変化するかをパターンで識別し、アクション認識、イベント検出、ビデオ要約などの高レベルのタスクを可能にします。一部の高度なアーキテクチャ(3D Convolutional Neural Networksなど)は、空間的特徴と時間的特徴を同時に学習するように設計されています。プロセス全体は、効率的なトレーニングデプロイメント、および監視を保証するために、まとまりのあるMachine Learning Operations(MLOps)フレームワーク内で管理されます。

ビデオ理解 vs. 関連コンセプト

ビデオ理解を、他の関連するコンピュータビジョンタスクと区別することが重要です。

  • 動画理解 vs. 物体検出/追跡: 物体検出は、単一のフレームに何があるかを識別し、物体追跡は、複数のフレームにわたってそれらの物体を追跡します。動画理解は、これらのタスクの出力を使用して、なぜ、つまり、時間とともに発生するアクション、イベント、およびインタラクションを解釈します。たとえば、人を追跡することは物体追跡であり、その人がドアを開けていることを識別することは動画理解です。
  • 動画理解 vs. 画像認識: 画像認識は、単一の静止画像内の物体やシーンの分類に焦点を当てています。動画理解は、この概念を時間軸に拡張し、一連の画像を解析して動的なイベントを理解します。「何を」だけでなく、「どのように」そして「いつ」を理解する必要があります。
  • 動画理解 vs. Text-to-Video: Text-to-Videoは、テキストによる記述から動画コンテンツを作成する生成AIタスクです。逆に、動画理解は、既存の動画コンテンツから意味を抽出し、記述や構造化されたデータを生成する分析タスクです。

実際のアプリケーション

ビデオ理解は、さまざまな業界で革新的なソリューションを強化しています。

  1. スマート監視とセキュリティ: セキュリティアプリケーションでは、ビデオ理解システムは異常なアクティビティを自動的に検出できます。たとえば、病院の監視フィードを監視して患者の転倒を特定したり、小売店のトラフィックを分析して盗難を検出したりできます。これらのシステムは、単純なモーション検出を超えて、アクションのコンテキストを理解することにより、誤報を大幅に削減し、より迅速な対応を可能にします。Ultralytics YOLO11によるスマート監視の強化について読むと、さらに詳しく知ることができます。
  2. 自動運転: 自動運転車にとって、道路を理解することは非常に重要です。ビデオ理解モデルは、カメラからのフィードを分析して、歩行者の意図を予測し、他の車両の動作を解釈し、複雑なシナリオで交通信号を認識します。この深いレベルの理解は、安全で信頼性の高いナビゲーションに不可欠です。この分野は、自律システムのための行動認識に関する広範な研究に依存することがよくあります。

その他のアプリケーションには、不適切な動画にフラグを立てることによるソーシャルメディアプラットフォーム上のコンテンツモデレーション、ゲームのハイライトを要約することによるスポーツ分析、エンターテインメントにおけるインタラクティブな体験の作成などがあります。Ultralytics HUBのようなプラットフォームは、これらの特殊なタスクのためにカスタムモデルをトレーニングするためのツールを提供し、TensorRTのようなツールとの統合は、リアルタイム推論のためにそれらを最適化します。

Ultralyticsコミュニティに参加しませんか?

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加
クリップボードにコピーしました