用語集

ビデオ理解は、いくつかの主要なCVタスクを基盤とする多層的なプロセスです。パイプラインは通常、個々のフレームを分析してキーとなる要素を特定することから始まります。

動画内のアクションやイベントを解釈する高度なAIであるVideo Understandingについて解説します。その仕組みと、自動運転やスマートセキュリティにおけるアプリケーションについて学びましょう。

ビデオ理解は、コンピュータビジョン(CV)とコンピュータ・ビジョン（CV）と人工知能機械が時間をかけて視覚データを解釈・分析できるようにすることに重点を置いています。標準的な静的なスナップショットを分析するスナップショットを分析する標準的な画像認識とは異なりシーン内の時間的ダイナミクス、文脈、因果関係を理解するために、一連のフレームを処理する。を理解する。この機能により、システムはどのようなオブジェクトが存在するかを識別するだけでなく何が起こっているかを推測し、将来の行動を予測し、視覚入力の背後にある「ストーリー」を理解することができる。視覚入力の背後にある「ストーリー」を理解することができる。この総合的なアプローチは、以下のような物理世界と自然に相互作用するシステムを構築するために不可欠である。物理的世界と自然に相互作用するシステムを構築するために不可欠である。交通をナビゲートする自律走行車からスマート家庭の安全を監視するスマート・アシスタントまで、物理的世界と自然に相互作用するシステムを作るためには、この総合的アプローチが不可欠である。

ビデオ解析の核となるメカニズム

ビデオ理解の背後にある技術的アーキテクチャは、静的オブジェクト検出よりもはるかに複雑である。よりもはるかに複雑である。動画を効果的に処理するにはディープラーニングモデルは同時に空間的特徴（オブジェクトの外観）と時間的特徴（それらのオブジェクトがどのように動き、変化するか）を同時に処理しなければならない。

最近のシステムは、多段パイプラインを採用することが多い：

空間分析：バックボーン・ネットワーク畳み込みニューラルネットワーク（CNN）またはViT（Vision Transformer）が、個々のフレームから視覚的特徴を抽出する。個々のフレームから視覚的特徴を抽出する。
時間的モデリング：これらの空間的特徴は、以下のようなアーキテクチャを使用して時間的に集約される。長期短期記憶（LSTM）ネットワークや、最近ではTransformerモデルアテンションメカニズムを利用して時間軸上の関連イベントに焦点を当てる。
行動認識：モデルは、「走る」、「転ぶ」、「手を振る」などの特定の動作を分類する。「多くの場合、行動認識用に設計されたデータセットを利用する。アクション認識のために設計されたデータセットを利用することが多い。

このプロセスは、多くの場合オプティカルフロー技術によってサポートされることが多い。フレーム間のベクトルを明示的に追跡し、動きのパターンを識別するモデルの能力を向上させる。エッジコンピューティングの進歩によりエッジコンピューティングの進歩により、これらの計算集約的なタスクはタスクをデバイス上でローカルに実行しリアルタイム推論が可能になります。

キーコンセプトの差別化

その範囲を理解するためには、ビデオ理解と関連するコンピュータビジョンのタスクを区別することが重要である：

ビデオ理解 vs. オブジェクトトラッキング：一方オブジェクトトラッキングは、フレーム間で特定のインスタンスオブジェクトトラッキングがフレームをまたいで特定のインスタンスの同一性を維持することに重点を置いているのに対し（例：車を追跡）、ビデオ理解はそのオブジェクトの動作（例：車が駐車している）を解釈する。例えば、車が駐車している）。
ビデオ理解と異常検知の比較： 異常検知はビデオ理解のサブセットである。異常値や異常なイベントにフラグを立てるために特別に調整されたもので、スマート監視でよく使用される。スマート監視でよく使用される。
ビデオ理解とジェネレーティブAIの比較 ジェネレーティブAIとビデオ理解とは、既存の映像から構造化された洞察を抽出する分析プロセスである。ビデオ理解とは、既存の映像から構造化された洞察を抽出する分析プロセスである。

実際のアプリケーション

ダイナミックなシーンを理解する能力は、主要産業全体のイノベーションの原動力となる：

ヘルスケアと患者モニタリング病院では、患者の動きを監視するためにビデオ理解を活用している。患者の動きを監視しています。ポーズ推定転倒を detect したり、歩行リハビリの進捗状況を分析したりすることができる。歩行リハビリの進捗状況を分析することができます。詳細はこちらヘルスケアにおけるAI をご覧ください。
スポーツ分析：コーチや放送関係者は、これらのシステムを使って、選手の戦略や試合の動きを自動的に分析する。自動的に分析します。キーポイントを追跡し複雑なプレーを特定することで、チームはデータ主導の洞察力によって競争力を高めることができます。スポーツ分析におけるスポーツ分析におけるAI
リテール・インテリジェンス：店舗は顧客の足取りや商品とのインタラクションを分析し、レイアウトを最適化する。レイアウトを最適化します。これにはインスタンス・セグメンテーションインスタンス・セグメンテーションが含まれます。

Ultralyticsビデオ解析の実装

ビデオ理解の基礎となるステップは、信頼性の高いオブジェクトトラッキングです。以下の例ではを使用してトラッキングを実装する方法を示します。 Ultralytics YOLO11モデルを使用してトラッキングを実装する方法を示します。これによりは、より高度な分析に必要な時間的連続性を確立する。将来的には YOLO26のような次期モデルでは、これらの機能をさらに統合しより高速で、エンド・ツー・エンドな映像処理を目指している。

from ultralytics import YOLO

# Load the YOLO11 model (nano version for speed)
model = YOLO("yolo11n.pt")

# Perform object tracking on a video file
# The 'persist=True' argument is crucial for maintaining object IDs across frames
results = model.track(source="path/to/traffic_video.mp4", persist=True, show=True)

# Process results to extract tracking IDs and class names
for result in results:
    boxes = result.boxes.xywh.cpu()
    track_ids = result.boxes.id.int().cpu().tolist()
    print(f"Detected IDs in this frame: {track_ids}")

課題と今後の方向性

大きな進歩にもかかわらず、映像の理解は、高い計算コストや、映像の取り扱いの難しさといった課題に直面している。計算コストの高さや、物体のオクルージョンを扱うことの難しさといった課題がある。研究者たちは、次のような課題に積極的に取り組んでいる。待ち時間を短縮する効率的なモデル・アーキテクチャと自己教師あり学習に取り組んでいる。

のようなツール NVIDIA TensorRTおよび ONNXが頻繁に使用されている。がよく使われている。この分野が進歩するにつれ、以下のようなマルチモーダルAIの統合が進むことが予想される。マルチモーダルAIの統合が進むと予想される。より深い理解のために。

ビデオ理解は、いくつかの主要なCVタスクを基盤とする多層的なプロセスです。パイプラインは通常、個々のフレームを分析してキーとなる要素を特定することから始まります。

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

ビデオ解析の核となるメカニズム

キーコンセプトの差別化

実際のアプリケーション

Ultralyticsビデオ解析の実装

課題と今後の方向性

このカテゴリの関連記事

自己教師付き学習によるノイズ除去：段階的な分解

未来の物体検出トレンド：注目すべき7つのポイント

Ultralytics YOLO モデルによる車両再識別の強化

Ultralytics コミュニティに参加する