Yolo 深圳
深セン
今すぐ参加
用語集

アクション認識

行動認識(Human Activity Recognition)を探求する:ヘルスケア、セキュリティ、スポーツのためのビデオ、ポーズ推定とディープラーニングはどのように人間の行動をdetect します。

行動認識は、しばしばHuman Activity Recognition (HAR)と呼ばれ、コンピュータビジョン(CV)の特殊なサブセットである。 コンピュータビジョン(CV)の特殊なサブセットである。 ビデオデータの特定の動きや行動を識別し、分類することに焦点を当てたコンピュータビジョン(CV)の特殊なサブセクションです。標準的な 静止フレームを解析して物体を検出する 行動認識では、動的なイベントを理解するために時間の次元を組み込みます。画像のシーケンスを処理することで 画像シーケンスを処理することで 人工知能(AI)システムは 人工知能(AI)システムは、歩く、走る、手を振る、転ぶなどの行動を区別することができる。この能力は ピクセルを見ることと、意図を理解することのギャップを埋める。 意図を理解することとのギャップを埋める。

核となる作用機序の認識

行動を正確に識別するために ディープラーニング(DL)モデルは2種類の特徴を抽出しなければならない。 空間的特徴と時間的特徴である。空間的特徴は、シーンの視覚的外観を記述する。 通常 通常、畳み込みニューラルネットワーク(CNN)を介して抽出される。時間的特徴は、これらの空間的要素が時間とともにどのように変化するかを記述する。

現代のアプローチは、多くの場合、以下のようなパイプラインを利用する:

  • 物体検出システムは フレーム内の個人を効果的に検出。最先端のモデル YOLO11のような最先端のモデルは、その速度と正確さにより、ここで頻繁に使用される。 精度が高い。
  • ポーズ推定この技術は 人体の骨格構造をマッピングし 肘、膝、肩などのキーポイントを追跡します。一連のフレームにおける これらの点の間の幾何学的関係は、一連のフレームにわたって、行動を分類するためのロバストな信号を提供する。 アクションを分類するためのロバストな信号を提供する。
  • 時系列分析:データのシーケンスは、時系列データ用に設計されたアーキテクチャを使用して処理される。 例えば リカレント・ニューラル・ネットワーク(RNN)や ロング・ショート・ターム・メモリー(LSTM) ネットワークを使用する。最近では、ビデオ・トランス は、ビデオストリームの長距離依存関係をモデル化する能力で人気を博している。

次のPython 例は ultralytics 映像からポーズキーポイントを抽出するライブラリ これは、多くの行動認識システムの基礎データ層として機能する。

from ultralytics import YOLO

# Load an official YOLO11 pose estimation model
model = YOLO("yolo11n-pose.pt")

# Run inference on a video to track human skeletal movement
# 'stream=True' returns a generator for efficient memory usage
results = model("path/to/video.mp4", stream=True)

for result in results:
    # Keypoints can be analyzed over time to determine actions
    keypoints = result.keypoints.xyn  # Normalized x, y coordinates
    print(keypoints)

関連性と現実世界の応用

人間の動きの解釈を自動化する能力は、さまざまな分野で大きな導入の原動力となっている。 世界 人の動き認識 の世界市場は、物理的なワークフローをデジタル化しようとする産業界によって拡大し続けています。

医療と患者の安全

ヘルスケアにおけるAIの分野では、患者を自動監視するために行動認識 自動化された患者モニタリングには、行動認識が不可欠である。システムは、病院や介護施設での転倒をdetect するように訓練することができる。 スタッフに即座に警告を発することができる。さらに、コンピューター・ビジョンは 患者の運動フォームをリアルタイムで分析することで 患者の運動フォームをリアルタイムで分析することで、回復を助け、怪我を防ぐための正しい動作を保証する。

スポーツ・アナリティクス

コーチと放送局 スポーツ界のAIは アスリートのパフォーマンスを分解する。アクション認識アルゴリズムは、バスケットボールのシュートやテニスのサーブ、サッカーのパスなど、試合映像のイベントに自動的にタグを付けることができる。 バスケットボールのシュート、テニスのサーブ、サッカーのパスなどである。このデータは このデータは、テクニックを洗練させ プレーヤーの動作パターンに基づく戦略の開発に役立ちます。

スマート・サーベイランス

セキュリティ・システムは、単純な動体検知を超えた進化を遂げている。高度な 高度なセキュリティ監視 は、喧嘩、うろつき、万引きなどの不審な行動を識別するために行動認識を利用する。 良性の動きは無視します。これにより、アラームの誤作動が減り、警備員の作業効率が向上します。

関連概念の区別

アクション認識をコンピュータ・ビジョンの類似用語と区別し、適切なツールを選択することが重要である。 適切なツールを選択することが重要です。

  • 動作認識 vs. 映像理解 映像理解 行動認識が特定の身体的活動(例えば「ドアを開ける」)を識別することに焦点を当てるのに対し、映像理解は文脈全体、物語全体、因果関係を理解することを目的とする、より広い分野である、 映像理解とは、映像内の文脈、物語、因果関係全体を理解することを目的とした、より広い分野である。 例えば、「人が犬を外に出すためにドアを開けている」など)。
  • 行動認識と物体追跡 オブジェクトトラッキング 物体追跡は、フレームをまたいで物体や人物の同一性を維持することに関係する。行動認識 は追跡された対象の行動を分析する。多くの場合、トラッキングは多人数シーンの行動を認識するための前提条件となる。 多くの場合、トラッキングは複数人のシーンにおける行動を認識するための前提ステップである。
  • アクション認識 vs. ポーズ推定 ポーズ推定 姿勢推定は、身体の関節の生の座標データを出力する。アクション認識は、このデータ(または視覚的特徴 を入力として、"サイクリング "や "ジャンプ "といった意味的なラベルを出力する。

課題と今後の方向性

これらのシステムの導入には、膨大な量のラベル付き学習データの必要性や、計算コストなどの課題がある。 学習データが必要であること、そして がかかる。Kinetics-400UCF101のようなベンチマークデータセットが、モデルの訓練と評価のための標準となっている。

ハードウェアの進歩に伴い、エッジAIへのシフトが進んでいる、 これにより、モデルをカメラやモバイルデバイス上で直接実行できるようになる。これにより リアルタイムでの推論が可能になる。 ビデオデータをクラウドに送信する必要がないため、プライバシーも向上する。今後発表される YOLO26を含む今後の開発は、基礎となる検出と姿勢推定エンジンの速度と精度をさらに最適化することを目的としている。 このような複雑な認識タスクの原動力となる検出および姿勢推定エンジンの速度と精度をさらに最適化することを目指しています。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加