Ultralytics YOLO26が、非人間キーポイントのサポート強化、収束の高速化、オクルージョン処理の改善、効率的なリアルタイムデプロイメントにより、姿勢推定をどのように向上させるかをご覧ください。
Ultralytics YOLO26が、非人間キーポイントのサポート強化、収束の高速化、オクルージョン処理の改善、効率的なリアルタイムデプロイメントにより、姿勢推定をどのように向上させるかをご覧ください。
人の姿勢を見ると、猫背になっているか、前かがみになっているか、まっすぐ立っているかを簡単に気づくことができます。人間は体の異なる部分が互いにどのように関連しているかを素早く理解できます。
これは、私たちが日常生活で動きやボディランゲージを解釈する方法に固有の部分です。しかし、機械にとって、このような視覚的理解は自動ではありません。システムに動きと構造を認識させるには、画像を意味のある方法で解釈できる高度な深層学習とコンピュータービジョン技術が必要です。
特に、姿勢推定は、コンピュータビジョンモデルが同様の理解を構築することを可能にするビジョンAI技術です。画像内のオブジェクトを単にdetectするのではなく、モデルは重要な構造的ランドマークを表すキーポイントを予測します。
これらのキーポイントは、身体の関節、動物の四肢、機械部品、あるいはコートの角のような固定点に対応する可能性があります。これらの点を特定し、trackすることで、システムは構造化された測定可能な方法で位置、アライメント、動きを理解できます。
ポーズ推定がより多くの実世界シナリオに適用されるにつれて、モデルは非人間的なキーポイント、複雑なシーン、およびカスタムデータセットをより効果的に処理する必要があります。例えば、Ultralytics YOLO26のような最先端モデルは、ポーズ推定などのコンピュータービジョンタスクをサポートし、柔軟性と全体的なパフォーマンスを向上させるために設計されたアーキテクチャおよびトレーニングの改善により、以前のYOLOポーズモデルを基盤としています。

本記事では、YOLO26-poseを以前のUltralytics YOLOポーズモデルと比較し、複雑なシーンにおける柔軟性、収束速度、パフォーマンスがどのように改善されたかを探ります。早速始めましょう!
Ultralytics YOLOの姿勢モデルを比較する前に、コンピュータービジョンの文脈において姿勢推定が実際に何を意味するのかを詳しく見てみましょう。
ポーズ推定は、画像やビデオフレーム内の特定のキーポイントをdetectし、trackするために使用される技術です。これらのキーポイントは、人体の関節、動物の四肢、機械のコンポーネント、またはシーン内の固定された参照点など、重要な構造的ランドマークを表すことができます。

これらの点の座標を特定することで、モデルはオブジェクトがどのように配置され、時間とともにどのように移動するかを理解できます。画像全体に単一のラベルを割り当てる画像分類や、オブジェクトの周囲にバウンディングボックスを描画することに焦点を当てる物体detectモデルとは異なり、姿勢推定は構造と動きに関するより詳細な空間情報を提供します。
YOLO26-poseは、YOLO26n-poseのような軽量オプションや、YOLO26m-pose、YOLO26l-pose、YOLO26x-poseのような大規模モデルを含む、複数のモデルバリアントまたはモデルサイズで利用可能です。これにより、チームはハードウェアとパフォーマンスのニーズに応じて、速度と精度の適切なバランスを選択できます。
Ultralyticsは、人間の姿勢推定のためのCOCO-Pose(COCOキーポイント)アノテーションなど、COCOデータセットのような大規模で汎用的なデータセットで学習された事前学習済み姿勢モデルも提供しているため、ゼロから始める必要はありません。ほとんどの場合、チームはこれらのモデルを独自のデータセットでファインチューニングし、特定のキーポイント、レイアウト、または環境に適応させます。
これには通常、キーポイント座標とクラスラベルを構造化された形式で定義するカスタムアノテーションファイルの準備が含まれます。これらのアノテーションは、各画像内の特定のピクセル座標にキーポイントをマッピングし、モデルがトレーニング中に正確な空間関係を学習できるようにします。
事前学習済みモデルを使用することで、トレーニングが高速化され、データ要件が削減され、プロジェクトをより効率的に本番環境に移行できるようになります。
姿勢推定が重要な役割を果たす、いくつかの実世界のユースケースを垣間見ていきましょう。

Ultralytics YOLO26は、以前のUltralytics YOLOモデルを基盤とし、学習と展開をより実用的にするための更新が加えられています。
以前のバージョンと同様に、統合されたフレームワークの一部として姿勢推定をサポートしています。主な違いは、YOLO26がより広範な実世界のユースケースにおいて、より柔軟で安定するように構築されている点です。

以前のUltralytics YOLO姿勢モデルは、人間の姿勢データセットに大きく影響されていました。これは、古い手法の一部が人間の関節構造を中心に最適化されていたことを意味します。YOLO26は、これらの人間固有の仮定を排除します。
その結果、テニスコートの角やその他のカスタム構造ランドマークのdetect(検出)など、非人間キーポイントに適しています。これは、すぐに使える事前学習済みYOLO26-poseモデルがCOCO-poseなどのデータセットでトレーニングされ、データセットのアノテーションで定義された人間キーポイントを予測するため、重要です。
しかし、チームが機械部品、競技場のマーカー、インフラポイントなど、異なる種類のランドマークをdetectしたい場合、モデルは通常、それらの特定のキーポイントがアノテーションされたカスタムデータセットでファインチューニングされる必要があります。
YOLO26は人間の関節構造に関する仮定に縛られないため、ファインチューニング中に、より効果的に適応できます。この柔軟性により、モデルはカスタムキーポイントレイアウトをより確実に学習でき、独自のキーポイント構成を持つデータセットで検証する際に、評価メトリクスが向上します。
YOLO26-poseは、オブジェクトの一部が部分的に隠れている場合や、非常に小さなスケールで表示される場合でも、キーポイントの局所化を改善するように設計されています。遠方の被写体、ドローン映像、または小オブジェクトのシナリオを含む現実世界のシーンでは、これにより以前の姿勢モデルと比較して、より正確なキーポイント予測が可能になります。
もう一つの重要な更新は、トレーニング中に使用される損失関数の定式化の改善です。損失関数は、モデルが学習中にどのように間違いを修正するかを決定します。
YOLO26-poseの場合、このプロセスはより効果的であり、モデルがより速く学習し、少ないエポックで高い精度に到達するのに役立ちます。ここで、エポックとはトレーニングデータセット全体を1回通過することを指します。
全体として、YOLO26-poseは、以前のUltralytics YOLO poseモデルを基盤とし、非人間キーポイントサポートとトレーニング収束においてより明確な改善を加えつつ、同じ使い慣れたワークフローを維持しています。
Ultralytics YOLOモデルの初期バージョンであるUltralytics YOLOv5は、主にオブジェクト検出のために構築されました。YOLOv5は後にインスタンスsegmentationをサポートするように拡張されましたが、公式のUltralyticsフレームワーク内には、ネイティブで特殊な姿勢推定ヘッドは含まれていません。
キーポイント検出を必要とするチームは、通常、個別の実装やカスタム変更に依存していました。Ultralytics YOLO26は、キーポイント予測のために特別に設計された専用のアーキテクチャヘッドを備え、ポーズ推定を組み込みタスクとして含んでいます。
これは、YOLO26-poseモデルがdetectionとsegmentationと同じ統合されたワークフロー内でトレーニング、検証、デプロイできることを意味します。構造化されたキーポイントdetectionに焦点を当てたプロジェクトの場合、YOLO26はYOLOv5がそのままでは提供しないネイティブなポーズサポートとタスク固有のアーキテクチャを提供します。
Ultralytics YOLOv8は、統合されたUltralyticsフレームワーク内でネイティブのポーズ推定を導入し、detectとsegmentationと同じワークフローでキーポイントモデルを簡単にトレーニングおよびデプロイできるようにしました。非最大抑制(NMS)を用いた従来のpost-processingパイプラインに依存し、bounding box回帰とトレーニングには以前の損失定式化を使用しています。
YOLO26は、姿勢推定に直接影響を与えるアーキテクチャとトレーニングの更新により、この基盤の上に構築されています。主な違いの1つはエンドツーエンドの設計です。YOLO26は推論時の外部NMSの必要性を排除し、特にCPUやエッジデバイスにおいて、デプロイを簡素化し、レイテンシの一貫性を向上させます。
もう一つの重要な改善点は、トレーニング手法にあります。YOLO26は、MuSGDオプティマイザと更新された損失戦略を導入しています。ポーズ推定タスクでは、キーポイントの不確実性がどのようにモデル化されるかを改善する残差対数尤度推定を統合しています。これらの変更は、特に複雑なシーンや部分的に遮蔽されたシーンにおいて、より速い収束とより安定したキーポイント予測につながる可能性があります。
要するに、YOLOv8-poseは強力で汎用性の高いベースラインを確立しました。YOLO26-poseは、トレーニング効率の向上、オクルージョンのより良い処理、および実世界の非人間ポーズアプリケーションに対するより高い柔軟性によって、そのベースラインを洗練します。
Ultralytics YOLO11は、バックボーンと特徴抽出層を洗練することでUltralytics YOLOv8を基盤としています。FLOPsを削減し、パラメータ効率を向上させ、強力なリアルタイム性能を維持しつつ、より高いmAPを達成しました。ポーズタスクにおいては、これはより軽量なアーキテクチャでより高いキーポイント精度を意味しました。
YOLO26-poseは、より根本的なアーキテクチャの変更により、その進化を続けています。簡単に言えば、YOLO11はYOLOv8の効率と精度を洗練させ、YOLO26はその基盤の上に、より高速な収束、より安定した推論、および複雑なシナリオでの姿勢精度の向上を目的としたアーキテクチャとトレーニングの更新を加えて構築されています。
Ultralytics YOLOモデル間の違いを探求する際、YOLO26-poseに切り替えるべきかどうか疑問に思うかもしれません。
簡単に言えば、これは簡単なアップグレードです。すでにUltralytics YOLOv8-poseまたはUltralytics YOLO11-poseを使用している場合、YOLO26-poseへの切り替えは通常、モデルバージョンを変更するだけであり、パイプラインを再構築する必要はありません。
非人間キーポイントのサポートの向上、トレーニング中の収束の高速化、オクルージョンされたポイントの処理の改善といったメリットを、同じUltralyticsフレームワーク内で享受できます。ほとんどの新規および既存のポーズプロジェクトにおいて、YOLO26-poseへの移行は、最小限の摩擦でこれらの改善を得るための簡単な方法です。
さらに、YOLO26-poseは、PyTorch上に構築され、トレーニング、検証、デプロイメントをシンプルにするUltralytics Pythonパッケージ内で完全にサポートされています。モデルはONNX、TensorRT、OpenVINO、CoreML、TFLiteなどの形式にエクスポートでき、全体的なワークフローを変更することなく、GPU、CPU、エッジデバイス全体にデプロイしやすくなります。
Ultralytics YOLO26-poseは、特に人間以外のキーポイントや複雑なシーンを扱う場合に、ポーズ推定をより柔軟かつ信頼性の高いものにします。より高速に学習し、オクルージョンをより適切に処理し、異なるdataset間でより一貫した結果を提供します。既にUltralytics YOLOポーズモデルを使用しているチームにとって、YOLO26は既存のワークフローを変更することなく明確な改善をもたらします。
AIについてもっと知りたいですか?コミュニティとGitHubリポジトリをご覧ください。ロボティクスにおけるAIや農業におけるコンピュータビジョンについては、ソリューションページをご覧ください。ライセンスオプションを確認して、今日からコンピュータビジョンを使った開発を始めましょう。
未来の機械学習で、新たな一歩を踏み出しましょう。