用語集

ビデオ理解

ビデオの中の行動や出来事を解釈する高度なAI、Video Understandingをご覧ください。自律走行やスマート・セキュリティのアプリケーションにどのように機能し、力を与えているかをご覧ください。

ビデオ理解とは、人工知能(AI)とコンピュータビジョン(CV)の先端分野で、機械がビデオの内容を自動的に解釈・分析することを可能にする。静止画像の処理とは異なり、ビデオ理解では、オブジェクトだけでなく、それらのアクション、相互作用、イベントの時間的コンテキストを認識するために、一連のフレームを分析する必要があります。これは、人間が動的なシーンを知覚・解釈するのと同じように、動画データを総合的に理解することを目的としている。この能力は、自律走行車から自動監視やコンテンツモデレーションまで、幅広いアプリケーションの基礎となる。

ビデオ理解の仕組み

ビデオ理解システムは通常、複数のAI技術を統合し、視覚的・時間的情報を処理・解釈する。そのプロセスは、個々のビデオフレームに対して実行されるコンピュータビジョンの基礎タスクから始まる。これらのタスクには次のようなものがある:

  • オブジェクト検出各フレーム内のオブジェクトを識別し、位置を特定する。Ultralytics YOLOのようなモデルは、この最初のステップに非常に効果的である。
  • 物体の追跡識別された物体を一連のフレームにわたって追跡し、その動きと持続性を理解する。
  • 姿勢推定人体の姿勢や重要なポイントを認識する。
  • 画像分割オブジェクトの正確な形状と境界を理解するために、フレーム内の各ピクセルを分類する。

これらの空間的特徴が抽出されると、システムは、リカレント・ニューラル・ネットワーク(RNN)や、最近のアーキテクチャでは一般的なトランスフォーマー・ネットワークなど、シーケンシャル・データ用に設計されたモデルを使用して、それらを経時的に分析する。これらのモデルは、オブジェクトやシーンがどのように変化するかのパターンを識別し、アクション認識、イベント検出、ビデオ要約などのより高度なタスクを可能にする。3D畳み込みニューラルネットワークのようないくつかの高度なアーキテクチャは、空間的特徴と時間的特徴を同時に学習するように設計されている。プロセス全体は、効率的なトレーニングデプロイメント、モニタリングを保証するために、結束した機械学習オペレーション(MLOps)フレームワーク内で管理されます。

ビデオ理解と関連概念

ビデオ理解と他の関連するコンピュータ・ビジョン・タスクを区別することは重要である。

  • ビデオ理解とオブジェクト検出/追跡の比較: オブジェクト検出は、1つのフレームに何が写っているかを特定し、オブジェクトトラッキングは、複数のフレームにわたってそれらのオブジェクトを追跡する。ビデオ理解では、これらのタスクのアウトプットを使い、時間と共に起こるアクション、イベント、インタラクションの理由を解釈します。例えば、人物を追跡することはオブジェクト追跡であり、人物がドアを開けていることを特定することはビデオ理解である。
  • ビデオ理解と画像認識の比較: 画像認識は、単一の静止画像内のオブジェクトやシーンを分類することに重点を置いています。ビデオ理解では、この概念を時間次元に拡張し、一連の画像を分析して動的な出来事を理解する。何を」理解するかだけでなく、「どのように」「いつ」理解するかも必要となる。
  • ビデオ理解とText-to-Videoの比較: テキストからビデオへの変換は、テキスト記述からビデオコンテンツを作成する生成的なAIタスクである。逆に、動画理解は、既存の動画コンテンツから意味を抽出し、説明や構造化データを生成する分析タスクである。

実世界での応用

様々な業界において、革新的なソリューションの数は増え続けている。

  1. スマートな監視とセキュリティセキュリティ・アプリケーションでは、ビデオ監視システムは異常な行動を自動的に検出することができる。例えば、病院内の監視映像をモニターして患者が転倒したことを特定したり、小売店内の交通状況を分析して盗難を検知したりすることができます。このようなシステムは、行動の背景を理解することで、単なる動体検知を超え、誤報を大幅に減らし、迅速な対応を可能にします。詳しくは、Ultralytics YOLO11によるスマート監視の強化についてをご覧ください。
  2. 自律走行: 自動運転車にとって、道路を理解することは非常に重要です。映像理解モデルはカメラからのフィードを分析し、歩行者の意図を予測し、他の車両の挙動を解釈し、複雑なシナリオの交通信号を認識します。このような深いレベルの理解は、安全で信頼性の高いナビゲーションに不可欠である。この分野は、自律システムのための行動認識の広範な研究に依存していることが多い。

その他の用途としては、不適切な動画にフラグを立てることによるソーシャルメディアプラットフォームのコンテンツモデレーション、試合のハイライトを要約することによるスポーツ分析、エンターテイメントにおけるインタラクティブな体験の創造などがある。Ultralytics HUBのようなプラットフォームは、これらの特殊なタスクのためにカスタムモデルをトレーニングするツールを提供し、TensorRTのようなツールとの統合は、リアルタイム推論用に最適化します。

Ultralyticsコミュニティに参加する

AIの未来に参加しませんか。世界のイノベーターとつながり、協力し、成長する

今すぐ参加する
クリップボードにコピーされたリンク