コンピュータビジョンタスクについて知っておくべきすべてのこと
オブジェクト追跡、インスタンスセグメンテーション、画像分類といったコンピュータビジョンタスクがどのように機能し、Ultralytics YOLO11がそれらをどのようにサポートしているかを学びます。

カメラと人工知能(AI)の進歩のおかげで、コンピュータやマシンは、人間と同じような方法で世界を認識できるようになりました。たとえば、人物の認識、オブジェクトの追跡、さらにはビデオ内で起きている状況の把握まで可能になっています。
具体的には、コンピュータビジョンは、マシンが周囲の視覚情報を理解し解釈できるようにするAIの分野です。コンピュータビジョンにはさまざまなタスクがあり、それぞれが画像やビデオから特定の種類の洞察を抽出するように設計されています。たとえば、物体検出は画像内のさまざまなアイテムを識別して位置を特定するのに役立ちますが、追跡、セグメンテーション、ポーズ推定といったその他のタスクは、マシンが動き、形状、位置をより正確に理解するのを支援します。
特定のアプリケーションで使用されるコンピュータビジョンのタスクは、必要な洞察の種類によって異なります。Ultralytics YOLO11のようなコンピュータビジョンモデルは、さまざまなコンピュータビジョンのタスクをサポートしており、現実世界のVision AIシステムを構築する際の信頼できる選択肢となります。
このガイドでは、YOLO11のようなモデルでサポートされているコンピュータビジョンのタスクを詳しく見ていきます。各タスクがどのように機能し、さまざまな業界でどのように活用されているかを探ります。それでは始めましょう!
Link to this sectionコンピュータビジョンのタスクとは何ですか?#
コンピュータビジョンのタスクは、人間の視覚能力をさまざまな方法で再現することを目指しています。これらのタスクは、マシンが物体を検出し、その動きを追跡し、ポーズを推定し、さらには画像やビデオ内の個々の要素を輪郭抽出するのに役立ちます。一般的に、コンピュータビジョンのタスクは、視覚データを小さなパーツに分解して、何が起きているかをより明確に解釈できるようにするモデルによって実現されます。
Vision AIモデル(Ultralytics YOLOモデルなど)は、検出、追跡、セグメンテーションといった複数のタスクを単一のフレームワークでサポートしています。この汎用性により、YOLO11モデルは幅広いユースケースに簡単に採用できます。

Fig 1。YOLO11でサポートされているコンピュータビジョンのタスク。
これの良い例として、スポーツアナリティクスがあります。YOLO11を使用すれば、物体検出によってフィールド上の各プレイヤーを検出し、物体追跡によって試合中ずっと彼らを追いかけることができます。その一方で、YOLO11のポーズ推定機能はプレイヤーの動きやテクニックを分析するのに役立ち、インスタンスセグメンテーションは各プレイヤーを背景から分離し、分析の精度を高めます。
これらのYOLO11対応のコンピュータビジョンタスクが合わさることで、試合中に何が起こっているかを完全に把握でき、チームはプレイヤーのパフォーマンス、戦術、全体的な戦略に関するより深い洞察を得ることができます。
Link to this sectionYOLO11でサポートされているコンピュータビジョンのタスクの概要#
コンピュータビジョンのタスクとは何かを確認したところで、次は実際の例を使いながら、YOLO11でサポートされている各タスクについて詳しく理解していきましょう。
Link to this sectionYOLO11による画像分類のサポート#
写真を見たとき、ほとんどの人は、それが犬なのか、山なのか、あるいは交通標識なのかを簡単に判断できます。なぜなら、私たちは皆、これらが通常どのように見えるかを学習してきたからです。画像分類は、マシンに同じことをさせるのに役立ちます。マシンに、画像内の主なオブジェクト(「車」、「バナナ」、「骨折したX線写真」など)に基づいて画像を分類し、ラベル付けする方法を教えるのです。このラベルは、コンピュータビジョンシステムが視覚コンテンツを理解し、それに応じて応答したり意思決定したりする助けになります。
このコンピュータビジョンのタスクの興味深い応用例の一つに、野生生物の監視があります。画像分類を使用すると、野生で撮影された写真から異なる動物種を識別できます。画像を自動的にラベル付けすることで、研究者は個体数を追跡し、移動パターンを監視し、絶滅危惧種をより簡単に特定して、保護活動を支援できます。

Fig 2. YOLO11を使用した画像分類の例。
Link to this sectionYOLO11の物体検出機能#
画像分類は画像に何が含まれているかという全体的なアイデアを得るのには役立ちますが、画像全体に一つのラベルしか割り当てません。複数のオブジェクトの正確な位置や正体といった詳細な情報が必要な状況では、物体検出が不可欠です。
物体検出は、多くの場合バウンディングボックスで囲むことによって、画像内の個々のオブジェクトを識別して位置を特定するプロセスです。Ultralytics YOLO11はリアルタイムの物体検出において特に優れたパフォーマンスを発揮し、幅広いアプリケーションにとって理想的です。
小売店の棚出しで使用されるコンピュータビジョンソリューションを例に挙げましょう。物体検出は果物、野菜、その他のアイテムをカウントし、正確な在庫管理を確実にします。農業分野では、同じ技術が作物の成熟度を監視し、農家が最適な収穫時期を決定するのを助け、熟したものとそうでないものを区別することさえできます。
.webp)
Fig 3. Ultralytics YOLO11による果物の検出。
Link to this sectionYOLO11を使用したインスタンスセグメンテーション#
物体検出はバウンディングボックスを使用して画像内のオブジェクトを識別・位置特定しますが、その正確な形状までは捉えません。そこで登場するのがインスタンスセグメンテーションです。オブジェクトをボックスで囲むのではなく、インスタンスセグメンテーションはその正確な輪郭をトレースします。
このように考えると分かりやすいかもしれません。単に「このエリアにリンゴがある」と示すのではなく、リンゴの正確な形状を慎重に輪郭抽出して塗りつぶします。この詳細なプロセスは、特にオブジェクト同士が近い場合に、AIシステムがオブジェクトの境界を明確に理解するのに役立ちます。
インスタンスセグメンテーションは、インフラの検査から地質調査まで、多くのアプリケーションに応用できます。例えば、地質調査のデータはYOLO11を使用して、表面の大小の亀裂や異常をセグメント化できます。これらの異常の周囲に正確な境界を描くことで、エンジニアは問題をピンポイントで特定し、プロジェクトが始まる前にそれに対処できます。

Fig 4. YOLO11による亀裂のセグメンテーション。
Link to this section物体追跡:YOLO11を使用してフレーム間でのオブジェクトを追跡する#
これまでに見てきたコンピュータビジョンのタスクは、単一の画像に何が含まれているかに焦点を当てていました。しかし、ビデオに関しては、1フレームを超えた洞察が必要です。このタスクである物体追跡が、そのために使用できます。
YOLO11の物体追跡機能は、人や車などの特定のオブジェクトがビデオフレームの連続の中で移動する際に、それを追跡できます。カメラアングルが変わったり、他のオブジェクトが現れたりしても、システムは同じターゲットを追跡し続けます。
これは、交通における車の追跡など、長期間の監視が必要なアプリケーションにとって極めて重要です。実際、YOLO11は車両を正確に追跡し、各車を追いかけてリアルタイムで速度を推定できます。これにより、物体追跡は交通監視のようなシステムにおける重要なコンポーネントとなっています。
![]()
Fig 5. 物体追跡のためのYOLO11のサポートは、速度推定に使用できます。
Link to this sectionYOLO11を使用した回転矩形ボックス(OBB)の検出#
現実世界のオブジェクトは常に完璧に整列しているわけではなく、傾いていたり、横を向いていたり、奇妙な角度で配置されていたりすることがあります。例えば、衛星写真では、船や建物が回転して見えることがよくあります。
従来の物体検出法では、オブジェクトの向きに合わせて調整されない固定の長方形ボックスを使用するため、これらの回転した形状を正確に捉えるのは困難です。回転矩形ボックス(OBB)検出は、ボックスが回転してオブジェクトにぴったりとフィットし、角度に合わせて配置されることでこの問題を解決し、より正確な検出を実現します。
港湾監視に関して言えば、YOLO11のOBB検出サポートは、船の向きに関係なく正確に識別・追跡するのに役立ち、港に出入りするすべての船が適切に監視されることを保証します。この正確な検出により、船の位置と動きに関するリアルタイムの情報が提供され、これは忙しい港を管理し、衝突を防ぐために不可欠です。

Fig 6。OBB検出とYOLO11を使用したボートの検出。
Link to this sectionポーズ推定とYOLO11:キーポイントの追跡#
ポーズ推定は、関節、手足、その他のマーカーなどのキーポイントを追跡してオブジェクトの動きを理解するコンピュータビジョン技術です。オブジェクトや体全体を一つの完全な単位として扱うのではなく、この手法は主要なパーツに分解します。これにより、動き、ジェスチャー、相互作用を詳細に分析することが可能になります。
この技術の一般的な応用例に人体ポーズ推定があります。さまざまな身体部位の位置をリアルタイムで追跡することで、人がどのように動いているかの明確な全体像が分かります。この情報は、ジェスチャー認識やアクティビティ監視から、スポーツのパフォーマンス分析まで、さまざまな目的で利用できます。
同様に、理学療法において、セラピストは人体ポーズ推定とYOLO11を使用してエクササイズ中の患者の動きを監視できます。これにより、各動作が正しく行われていることを確認しつつ、経時的な進捗を追跡できます。

Fig 7. YOLO11はポーズ推定を使用してワークアウトを監視できます。
Link to this sectionYOLO11がさまざまなコンピュータビジョンのタスクをどのようにサポートしているかを探る#
YOLO11でサポートされているすべてのコンピュータビジョンのタスクについて詳しく検討しましたので、次はYOLO11がそれらをどのようにサポートしているかを見ていきましょう。
YOLO11は単一のモデルではなく、特定のコンピュータビジョンのタスク用に設計された専門的なモデルのバリエーション群です。これにより、YOLO11は幅広いアプリケーションに適応できる汎用性の高いツールとなっています。また、カスタムのデータセットでこれらのモデルを微調整して、プロジェクト固有の課題に取り組むこともできます。
特定のビジョンのタスク用に事前トレーニングされたYOLO11モデルのバリエーションは以下の通りです:
- YOLO11: このモデルは複数のオブジェクトをリアルタイムで検出しラベル付けするため、高速な視覚認識に最適です。
- YOLO11-seg: このバリエーションは、詳細なマスクを使用してオブジェクトを背景から分離することでセグメンテーションに焦点を当てています。
- YOLO11-obb: このモデルは、各オブジェクトの向きに合わせてバウンディングボックスを描くことで、回転したオブジェクトを検出するように設計されています。
- YOLO11-cls: このバリエーションは、全体的なコンテンツに基づいて単一のカテゴリラベルを割り当てることで画像を分類します。
- YOLO11-pose: このモデルは身体のキーポイントを推定し、姿勢、手足の位置、動きを追跡します。
各バリエーションには異なるサイズが用意されており、ユーザーは特定のニーズに合わせて速度と精度の適切なバランスを選択できます。
Link to this section重要なポイント#
コンピュータビジョンのタスクは、マシンが世界を理解し相互作用する方法を変えています。画像やビデオを重要な要素に分解することで、これらの技術によりオブジェクト、動き、相互作用を詳細に分析することが容易になっています。
交通安全やスポーツパフォーマンスの向上から、産業プロセスの効率化まで、YOLO11のようなモデルはイノベーションを推進するリアルタイムの洞察を提供できます。Vision AIが進化し続けるにつれ、私たちが日々視覚データを解釈し利用する方法において、ますます重要な役割を果たすことになるでしょう。
私たちのコミュニティに参加し、GitHubリポジトリを訪れて、実際に動作するAIをご覧ください。ライセンスオプションを調べ、ソリューションページで農業におけるAIや製造におけるコンピュータビジョンの詳細をご覧ください。






