YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

ビデオ理解は、いくつかの主要なCVタスクを基盤とする多層的なプロセスです。パイプラインは通常、個々のフレームを分析してキーとなる要素を特定することから始まります。

ビデオ理解が時間的ダイナミクスを分析してアクションを解釈する方法を探ります。高度なAIのために、Ultralytics YOLO26でリアルタイムのtrackを実装する方法を学びましょう。

ビデオ理解は、機械が時間とともに視覚データを認識、分析、解釈できるようにすることに焦点を当てた、コンピュータビジョン (CV)の洗練された分野です。静的なスナップショットを単独で処理する標準的な画像認識とは異なり、ビデオ理解はフレームのシーケンスを分析して、時間的ダイナミクス、コンテキスト、および因果関係を把握することを含みます。時間という「第四の次元」を処理することで、AIシステムは単にオブジェクトを特定するだけでなく、シーン内で展開されるアクション、イベント、および物語を理解することができます。この機能は、動的な現実世界環境で安全かつ効果的に相互作用できるインテリジェントなシステムを作成するために不可欠です。

動画解析の主要コンポーネント

ビデオコンテンツを正常に解釈するためには、モデルは空間的特徴(フレーム内にあるもの)と時間的特徴(物事がどのように変化するか)という2つの主要な種類の情報を統合する必要があります。これには、複数のニューラルネットワーク戦略を組み合わせることが多い複雑なアーキテクチャが必要です。

  • 畳み込みニューラルネットワーク (CNN): これらのネットワークは通常、空間的なバックボーンとして機能し、個々のフレームから形状、テクスチャ、オブジェクトなどの視覚的特徴を抽出します。
  • リカレントニューラルネットワーク(RNN): Long Short-Term Memory (LSTM)ユニットのようなアーキテクチャは、CNNによって抽出された特徴のシーケンスを処理するために使用され、モデルが過去のフレームを「記憶」し、将来の状態を予測することを可能にします。
  • オプティカルフロー: 多くのシステムがオプティカルフローアルゴリズムを利用し、フレーム間のピクセルの動きベクトルを明示的に計算することで、物体の外観に依存しない速度と方向に関する重要なデータを提供します。
  • Vision Transformer (ViT): 現代のアプローチは、アテンションメカニズムにますます依存しており、異なるフレームや領域の重要性を重み付けし、モデルが長時間のビデオストリーム内の主要なイベントに焦点を当てることを可能にします。

実際のアプリケーション

時間的コンテキストを理解する能力は、さまざまな業界で高度な自動化への扉を開きました。

  • 自動運転車: 自動運転車は、ビデオ理解を利用して歩行者や他の車両の軌道を予測します。動きのパターンを分析することで、システムは潜在的な衝突を予測し、複雑な操縦を実行できます。
  • 行動認識: スポーツ分析やヘルスケアモニタリングにおいて、システムは選手が得点する、患者が転倒するなど、特定の人間活動を識別し、自動化された洞察やアラートを提供します。
  • スマートリテール: 店舗はこれらのシステムを異常検知に利用し、盗難を特定したり、顧客の動線を分析してレイアウトの最適化を図ったりします。
  • コンテンツモデレーション: 大規模なメディアプラットフォームは、ビデオ理解を使用して不適切なコンテンツを自動的にフラグ付けしたり、トピック別にアップロードを分類したりすることで、手動レビューの必要性を大幅に削減します。

関連概念の区別

ビデオ理解は幅広い機能を網羅していますが、AI分野のいくつかの関連用語とは異なります。

  • ビデオ理解 vs. オブジェクトtrack: trackは、インスタンス(特定の車など)がフレーム間を移動する際に、その固有の識別情報を維持することに焦点を当てます。ビデオ理解は、その車の挙動を解釈し、「駐車している」または「スピード違反をしている」といった認識を行います。
  • ビデオ理解 vs. 姿勢推定: 姿勢推定は、単一フレームまたはシーケンスにおける身体関節の幾何学的構成をdetectします。ビデオ理解は、このデータを使用して、「手を振って挨拶している」といった動きの意味を推論します。
  • ビデオ理解 vs. マルチモーダルAI: ビデオ理解が視覚シーケンスに焦点を当てる一方で、マルチモーダルAIは、ビデオを音声、テキスト、またはセンサーデータと組み合わせて、より全体的な分析を行います。

YOLO26によるビデオ分析の実装

ビデオ理解における基礎的なステップは、時間的連続性を確立するためにオブジェクトを堅牢にdetectし、trackすることです。Ultralytics YOLO26モデルは、リアルタイムtrackにおいて最先端の性能を提供し、これはより高レベルの行動分析の前駆体として機能します。

以下の例は、python APIを使用してビデオソースに対してオブジェクトtrackingを実行する方法を示しています。

from ultralytics import YOLO

# Load the official YOLO26n model (nano version for speed)
model = YOLO("yolo26n.pt")

# Track objects in a video file with persistence to maintain IDs
# 'show=True' visualizes the tracking in real-time
results = model.track(source="path/to/video.mp4", persist=True, show=True)

課題と今後の動向

著しい進歩にもかかわらず、高解像度ビデオストリームにおける膨大なデータ量のため、ビデオ理解は依然として計算コストが高いです。3D畳み込みや時間的トランスフォーマーのFLOPSを計算することは、エッジAIデバイスにとっては法外なコストになる可能性があります。これに対処するため、研究者たちはTemporal Shift Module (TSM)のような効率的なアーキテクチャを開発し、NVIDIA TensorRTのような最適化ツールを活用して、リアルタイム推論を可能にしています。

将来の開発は、モデルが音声キュー(例:サイレン)とテキストコンテキストを統合してより深い理解を達成する、洗練されたマルチモーダル学習へと向かっています。Ultralytics Platformのようなプラットフォームも、複雑なビデオデータセットのアノテーションと管理を合理化するために進化しており、特定の時間的タスク向けのカスタムモデルの学習を容易にしています。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。