キーポイントがAIにおける物体の形状と姿勢をどのように定義するかを学びましょう。Ultralytics YOLO26による姿勢推定を探求し、使いやすいpython SDKで始めましょう。
キーポイントとは、画像内の独特な空間的位置またはランドマークであり、オブジェクトや被写体の重要な特徴を定義します。コンピュータービジョンと機械学習の文脈では、キーポイントは通常、オブジェクトの特定の部分(人の肘、建物の角、車のホイールの中心など)を正確に特定する(X, Y)座標のセットで表現されます。オブジェクトの存在のみを識別する単純なタスクとは異なり、キーポイントを識別することで、人工知能 (AI)モデルは被写体の形状、姿勢、構造的配置を理解できるようになります。この機能は高度な視覚分析の基礎であり、機械がボディランゲージを解釈し、正確な動きをtrackし、デジタルオーバーレイを現実世界のオブジェクトにalignすることを可能にします。
キーポイントは、人間や動物の骨格構造をマッピングする手法である姿勢推定の基礎データとして機能します。肩、膝、足首などの事前定義された点のセットをdetectすることで、アルゴリズムは被写体の完全な姿勢をリアルタイムで再構築できます。このプロセスは、通常、オブジェクトの内部形状を理解せずにオブジェクトの周囲にバウンディングボックスを出力する標準的なobject detectionを超えています。
最先端のUltralytics YOLO26のような現代のアーキテクチャは、これらのキーポイントを高精度かつ高速に予測するように進化しました。これらのモデルは、関節や顔の特徴に関連する視覚パターンを学習するために、COCO Keypointsのような大規模なアノテーション付きデータセットでトレーニングされた深層学習 (DL)ネットワークを利用します。推論中、モデルは各キーポイントの座標を回帰し、多くの場合、予測の信頼性を示す信頼度スコアを含みます。
キーポイントを他の一般的なコンピュータビジョン出力と区別することは、その独自の有用性を理解する上で役立ちます。
特定の身体部位やオブジェクトの特徴をtrackする能力は、業界全体で多様なアプリケーションを解き放ちます。
Ultralytics Platformまたはpython SDKを使用すると、開発者はキーポイント検出を簡単に実装できます。以下の例は、事前学習済みのYOLO26-poseモデルをロードし、画像に対して推論を実行して人間の骨格をdetectする方法を示しています。
from ultralytics import YOLO
# Load a pre-trained YOLO26 pose estimation model
model = YOLO("yolo26n-pose.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Visualize the results showing detected keypoints and skeletons
for result in results:
result.show() # Display the image with keypoints drawn
# Access keypoint coordinates (x, y, confidence)
keypoints = result.keypoints.data
print(f"Detected keypoints shape: {keypoints.shape}")
このシンプルなワークフローにより、高度なコンピュータービジョン(CV)アプリケーションを迅速にデプロイできます。例えば、産業機械や動物種における特定の点をdetectするカスタムキーポイントモデルをトレーニングしたいユーザーにとって、Ultralytics Platformはクラウドでのデータアノテーションとモデルトレーニングのプロセスを簡素化します。
キーポイント検出を成功裏に展開するには、オクルージョン(身体の一部が隠れること)や多様な照明条件といった課題への対処が必要です。現代のモデルは、訓練中に堅牢なデータ拡張を行うことでこれに対処し、ネットワークを多様なシナリオに曝露させます。さらに、キーポイントをオブジェクトトラッキングアルゴリズムと統合することで、ビデオストリーム内で個人の一貫した経時的な識別が可能になり、セキュリティや行動分析のようなアプリケーションに不可欠です。
未来の機械学習で、新たな一歩を踏み出しましょう。