Yolo 深圳
深セン
今すぐ参加
用語集

ビデオ理解は、いくつかの主要なCVタスクを基盤とする多層的なプロセスです。パイプラインは通常、個々のフレームを分析してキーとなる要素を特定することから始まります。

動画内のアクションやイベントを解釈する高度なAIであるVideo Understandingについて解説します。その仕組みと、自動運転やスマートセキュリティにおけるアプリケーションについて学びましょう。

ビデオ理解は、コンピュータビジョン(CV)と コンピュータ・ビジョン(CV)と 人工知能 機械が時間をかけて視覚データを解釈・分析できるようにすることに重点を置いています。標準的な 静的なスナップショットを分析する スナップショットを分析する標準的な画像認識とは異なり シーン内の時間的ダイナミクス、文脈、因果関係を理解するために、一連のフレームを処理する。 を理解する。この機能により、システムはどのようなオブジェクトが存在するかを識別するだけでなく 何が起こっているかを推測し、将来の行動を予測し、視覚入力の背後にある「ストーリー」を理解することができる。 視覚入力の背後にある「ストーリー」を理解することができる。この総合的なアプローチは、以下のような物理世界と自然に相互作用するシステムを構築するために不可欠である。 物理的世界と自然に相互作用するシステムを構築するために不可欠である。 交通をナビゲートする自律走行車からスマート 家庭の安全を監視するスマート・アシスタントまで、物理的世界と自然に相互作用するシステムを作るためには、この総合的アプローチが不可欠である。

ビデオ解析の核となるメカニズム

ビデオ理解の背後にある技術的アーキテクチャは、静的オブジェクト検出よりもはるかに複雑である。 よりもはるかに複雑である。動画を効果的に処理するには ディープラーニングモデルは同時に 空間的特徴(オブジェクトの外観)と時間的特徴(それらのオブジェクトがどのように動き、変化するか)を同時に処理しなければならない。

最近のシステムは、多段パイプラインを採用することが多い:

  1. 空間分析:バックボーン・ネットワーク 畳み込みニューラルネットワーク(CNN) またはViT(Vision Transformer)が、個々のフレームから視覚的特徴を抽出する。 個々のフレームから視覚的特徴を抽出する。
  2. 時間的モデリング:これらの空間的特徴は、以下のようなアーキテクチャを使用して時間的に集約される。 長期短期記憶(LSTM) ネットワークや、最近ではTransformerモデル アテンションメカニズムを利用して 時間軸上の関連イベントに焦点を当てる。
  3. 行動認識:モデルは、「走る」、「転ぶ」、「手を振る」などの特定の動作を分類する。 「多くの場合、行動認識用に設計されたデータセットを利用する。 アクション認識のために設計されたデータセットを利用することが多い。

このプロセスは、多くの場合 オプティカルフロー技術によってサポートされることが多い。 フレーム間のベクトルを明示的に追跡し、動きのパターンを識別するモデルの能力を向上させる。エッジコンピューティングの進歩により エッジコンピューティングの進歩により、これらの計算集約的なタスクは タスクをデバイス上でローカルに実行し リアルタイム推論が可能になります。

キーコンセプトの差別化

その範囲を理解するためには、ビデオ理解と関連するコンピュータビジョンのタスクを区別することが重要である:

  • ビデオ理解 vs. オブジェクトトラッキング:一方 オブジェクトトラッキングは、フレーム間で特定のインスタンス オブジェクトトラッキングがフレームをまたいで特定のインスタンスの同一性を維持することに重点を置いているのに対し(例:車を追跡)、ビデオ理解はそのオブジェクトの動作(例:車が駐車している)を解釈する。 例えば、車が駐車している)。
  • ビデオ理解と異常検知の比較: 異常検知はビデオ理解のサブセットである。 異常値や異常なイベントにフラグを立てるために特別に調整されたもので、スマート監視でよく使用される。 スマート監視でよく使用される。
  • ビデオ理解とジェネレーティブAIの比較 ジェネレーティブAIと ビデオ理解とは、既存の映像から構造化された洞察を抽出する分析プロセスである。 ビデオ理解とは、既存の映像から構造化された洞察を抽出する分析プロセスである。

実際のアプリケーション

ダイナミックなシーンを理解する能力は、主要産業全体のイノベーションの原動力となる:

  • ヘルスケアと患者モニタリング病院では、患者の動きを監視するためにビデオ理解を活用している。 患者の動きを監視しています。ポーズ推定 転倒を detect したり、歩行リハビリの進捗状況を分析したりすることができる。 歩行リハビリの進捗状況を分析することができます。詳細はこちら ヘルスケアにおけるAI をご覧ください。
  • スポーツ分析:コーチや放送関係者は、これらのシステムを使って、選手の戦略や試合の動きを自動的に分析する。 自動的に分析します。キーポイントを追跡し 複雑なプレーを特定することで、チームはデータ主導の洞察力によって競争力を高めることができます。スポーツ分析における スポーツ分析におけるAI
  • リテール・インテリジェンス:店舗は顧客の足取りや商品とのインタラクションを分析し、レイアウトを最適化する。 レイアウトを最適化します。これには インスタンス・セグメンテーション インスタンス・セグメンテーションが含まれます。

Ultralyticsビデオ解析の実装

ビデオ理解の基礎となるステップは、信頼性の高いオブジェクトトラッキングです。以下の例では を使用してトラッキングを実装する方法を示します。 Ultralytics YOLO11モデルを使用してトラッキングを実装する方法を示します。これにより は、より高度な分析に必要な時間的連続性を確立する。将来的には YOLO26のような次期モデルでは、これらの機能をさらに統合し より高速で、エンド・ツー・エンドな映像処理を目指している。

from ultralytics import YOLO

# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")

# Perform object tracking on a video file
# The 'persist=True' argument is crucial for maintaining object IDs across frames
results = model.track(source="path/to/traffic_video.mp4", persist=True, show=True)

# Process results to extract tracking IDs and class names
for result in results:
    boxes = result.boxes.xywh.cpu()
    track_ids = result.boxes.id.int().cpu().tolist()
    print(f"Detected IDs in this frame: {track_ids}")

課題と今後の方向性

大きな進歩にもかかわらず、映像の理解は、高い計算コストや、映像の取り扱いの難しさといった課題に直面している。 計算コストの高さや、物体の オクルージョン を扱うことの難しさといった課題がある。研究者たちは、次のような課題に積極的に取り組んでいる。 待ち時間を短縮する効率的なモデル・アーキテクチャと 自己教師あり学習 に取り組んでいる。

のようなツール NVIDIA TensorRTおよび ONNXが頻繁に使用されている。 がよく使われている。この分野が進歩するにつれ、以下のようなマルチモーダルAIの統合が進むことが予想される。 マルチモーダルAIの統合が進むと予想される。 より深い理解のために。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加