フィットネス、ジェスチャー認識、高速で正確なトラッキングのためのUltralytics YOLO11によるポーズ推定。
コンピュータビジョンにおけるキーポイントとは、画像内の特定の注目点のことで、特徴的で繰り返し使用できる。これらのポイントは、物体やシーンを表すコンパクトで構造的なランドマークとして機能し、機械が視覚コンテンツをより詳細に理解・分析することを可能にする。アルゴリズムは、すべてのピクセルを処理する代わりに、これらのキーポイント(コーナー、エッジ、人体の関節など)に焦点を当て、動きの追跡、物体の認識、3Dシーンの再構築などの複雑なタスクを実行します。これらの有益なポイントに集中することで、コンピュータビジョンモデルは高い効率と精度を達成することができる。
キーポイントの主な用途は、物体や人物の位置と向きを特定することに焦点を当てたコンピュータビジョンのタスクであるポーズ推定である。人間のポーズ推定では、キーポイントは肩、肘、膝、手首などの身体の主要な関節に対応する。画像や動画からこれらのポイントを検出することで、人体の骨格表現を構築することができる。この「デジタル骨格」によって、AIシステムは、人物の外見、衣服、周囲の環境を理解することなく、姿勢、ジェスチャー、動きを分析することができる。
Ultralytics YOLO11のような高度なディープラーニング・モデルは、COCOのような大規模で注釈付きのデータセットで訓練され、これらのキーポイントの位置をリアルタイムで正確に予測する。OpenPoseのような初期のシステムは、複数人の全身、手、顔のキーポイントを同時に検出する能力を実証し、道を開いた。最新のアーキテクチャは、このような基盤の上に構築され、さまざまなアプリケーションに対して、より高速で高精度な結果を提供しています。
キーポイント検出は、コンピュータビジョンにおける他の関連タスクと区別することが重要である:
キーポイントの検出と追跡が可能になったことで、さまざまな業界で大きな進歩がもたらされた。以下はその顕著な例である:
その他の用途としては、感情分析やARフィルターのための顔のランドマーク検出、野生動物保護における行動研究のための動物のポーズ推定、機械のナビゲーションや環境との相互作用を支援するロボット工学などがある。