ビデオの中の行動や出来事を解釈する高度なAI、Video Understandingをご覧ください。自律走行やスマート・セキュリティのアプリケーションにどのように機能し、力を与えているかをご覧ください。
ビデオ理解とは、人工知能(AI)とコンピュータビジョン(CV)の先端分野で、機械がビデオの内容を自動的に解釈・分析することを可能にする。静止画像の処理とは異なり、ビデオ理解では、オブジェクトだけでなく、それらのアクション、相互作用、イベントの時間的コンテキストを認識するために、一連のフレームを分析する必要があります。これは、人間が動的なシーンを知覚・解釈するのと同じように、動画データを総合的に理解することを目的としている。この能力は、自律走行車から自動監視やコンテンツモデレーションまで、幅広いアプリケーションの基礎となる。
ビデオ理解システムは通常、複数のAI技術を統合し、視覚的・時間的情報を処理・解釈する。そのプロセスは、個々のビデオフレームに対して実行されるコンピュータビジョンの基礎タスクから始まる。これらのタスクには次のようなものがある:
これらの空間的特徴が抽出されると、システムは、リカレント・ニューラル・ネットワーク(RNN)や、最近のアーキテクチャでは一般的なトランスフォーマー・ネットワークなど、シーケンシャル・データ用に設計されたモデルを使用して、それらを経時的に分析する。これらのモデルは、オブジェクトやシーンがどのように変化するかのパターンを識別し、アクション認識、イベント検出、ビデオ要約などのより高度なタスクを可能にする。3D畳み込みニューラルネットワークのようないくつかの高度なアーキテクチャは、空間的特徴と時間的特徴を同時に学習するように設計されている。プロセス全体は、効率的なトレーニング、デプロイメント、モニタリングを保証するために、結束した機械学習オペレーション(MLOps)フレームワーク内で管理されます。
ビデオ理解と他の関連するコンピュータ・ビジョン・タスクを区別することは重要である。
様々な業界において、革新的なソリューションの数は増え続けている。
その他の用途としては、不適切な動画にフラグを立てることによるソーシャルメディアプラットフォームのコンテンツモデレーション、試合のハイライトを要約することによるスポーツ分析、エンターテイメントにおけるインタラクティブな体験の創造などがある。Ultralytics HUBのようなプラットフォームは、これらの特殊なタスクのためにカスタムモデルをトレーニングするツールを提供し、TensorRTのようなツールとの統合は、リアルタイム推論用に最適化します。