物体追跡、インスタンスセグメンテーション、画像分類といったコンピュータビジョンのタスクがどのように機能し、Ultralytics YOLO11がそれらをどのようにサポートするかを学びます。

物体追跡、インスタンスセグメンテーション、画像分類といったコンピュータビジョンのタスクがどのように機能し、Ultralytics YOLO11がそれらをどのようにサポートするかを学びます。
カメラと人工知能(AI)の進歩のおかげで、コンピューターと機械は、人間がそうであるように世界を見ることができるようになりました。たとえば、人々を認識したり、物体を追跡したり、ビデオで何が起こっているかのコンテキストを理解したりすることもできます。
具体的には、コンピュータビジョンは、機械が周囲の世界から視覚情報を理解し、解釈することを可能にするAIの分野です。コンピュータビジョンは、画像や動画から特定の種類の洞察を抽出するように設計されたさまざまなタスクを含みます。例えば、物体検出は、写真内の異なるアイテムを識別して特定するのに役立ち、トラッキング、セグメンテーション、姿勢推定などの他のタスクは、機械が動き、形状、および位置をより正確に理解するのに役立ちます。
特定のアプリケーションに使用されるコンピュータビジョンタスクは、必要な洞察の種類によって異なります。Ultralytics YOLO11のようなコンピュータビジョンモデルは、さまざまなコンピュータビジョンタスクをサポートしており、現実世界のVision AIシステムを構築するための信頼できる選択肢となっています。
このガイドでは、YOLO11のようなモデルがサポートするコンピュータビジョンタスクについて詳しく見ていきます。各タスクの仕組みと、様々な業界でどのように使用されているかを探ります。それでは始めましょう!
コンピュータビジョンタスクは、人間の視覚能力をさまざまな方法で再現することを目的としています。これらのタスクは、マシンがオブジェクトを検出し、その動きを追跡し、ポーズを推定し、画像や動画内の個々の要素を概説するのに役立ちます。通常、コンピュータビジョンタスクは、何が起こっているかをより明確に解釈できるように、視覚データをより小さな部分に分割するモデルによって実現されます。
Ultralytics YOLOモデルのようなVision AIモデルは、1つのフレームワークで検出、追跡、セグメンテーションなどの複数のタスクをサポートしています。この多様性により、YOLO11モデルは幅広いユースケースに簡単に採用できます。
良い例としては、スポーツ分析があります。YOLO11は、物体検出を使用してフィールド上の各プレーヤーを検出し、物体追跡によって試合全体を通して追跡できます。一方、YOLO11の姿勢推定機能は、プレーヤーの動きとテクニックの分析に役立ち、インスタンスセグメンテーションは各プレーヤーを背景から分離し、分析の精度を高めます。
これらのYOLO11対応のコンピュータビジョンタスクが連携することで、試合中に何が起こっているかの全体像を把握し、チームは選手のパフォーマンス、戦術、全体的な戦略についてより深い洞察を得ることができます。
コンピュータビジョンのタスクとは何かを見てきたところで、YOLO11でサポートされている各タスクを、現実世界の例を使ってより詳しく理解していきましょう。
写真を見たとき、ほとんどの人は、それが犬、山、または交通標識を示しているかどうかを簡単に判断できます。なぜなら、私たちは皆、これらのものが通常どのように見えるかを学んできたからです。画像分類は、マシンが同様のことを行うのを支援します。画像分類では、画像内の主要なオブジェクトに基づいて画像を分類およびラベル付けする方法を教えます。たとえば、「車」、「バナナ」、または「骨折のあるX線写真」などです。このラベルは、コンピュータビジョンシステムが視覚的なコンテンツを理解し、それに応じて応答または意思決定を行うのに役立ちます。
このコンピュータビジョンタスクの興味深いアプリケーションの1つは、野生生物の監視です。画像分類を使用して、野生で撮影された写真からさまざまな動物種を識別できます。画像を自動的にラベル付けすることで、研究者は個体数を追跡し、移動パターンを監視し、絶滅危惧種をより簡単に特定して、保護活動を支援できます。
画像分類は、画像に何が含まれているかという全体的なアイデアを得るのに役立ちますが、画像全体に1つのラベルしか割り当てません。複数のオブジェクトの正確な位置や識別など、詳細な情報が必要な状況では、物体検出が不可欠になります。
物体検出とは、画像内の個々の物体を識別し、多くの場合、それらの周囲にバウンディングボックスを描画して位置を特定するプロセスです。Ultralytics YOLO11は、リアルタイム物体検出において特に優れた性能を発揮し、幅広いアプリケーションに最適です。
たとえば、棚の在庫管理のために小売店で使用されるコンピュータビジョンソリューションを例にとってみましょう。物体検出は、果物、野菜、その他の品物を数え、正確な在庫を確保するのに役立ちます。農業分野では、同じ技術で作物の成熟度を監視し、農家が収穫に最適な時期を判断するのに役立ち、熟した農産物と未熟な農産物を区別することもできます。
物体検出は、バウンディングボックスを使用して画像内の物体を識別し、位置を特定しますが、それらの正確な形状を捉えることはできません。そこでインスタンスセグメンテーションが登場します。インスタンスセグメンテーションは、物体の周囲にボックスを描画する代わりに、その正確な輪郭をトレースします。
たとえば、「この領域にリンゴがある」と単に示すのではなく、リンゴの正確な形状を注意深く輪郭を描き、塗りつぶすようなものだと考えることができます。この詳細なプロセスは、特にオブジェクトが互いに接近している場合に、AIシステムがオブジェクトの境界を明確に理解するのに役立ちます。
インスタンスセグメンテーションは、インフラストラクチャの検査から地質調査まで、多くのアプリケーションに適用できます。たとえば、地質調査からのデータは、YOLO11を使用して、大小の表面の亀裂や異常をセグメント化するために分析できます。これらの異常の周囲に正確な境界線を描くことで、エンジニアは問題を特定し、プロジェクトが開始される前にそれらに対処できます。
これまで見てきたコンピュータビジョンのタスクは、一枚の画像に何が写っているかに焦点を当てたものでした。しかし、動画となると、1フレームにとどまらない洞察が必要です。そこで、物体追跡というタスクが活用できます。
YOLO11の物体追跡機能は、人物や車などの特定の物体が連続するビデオフレーム内を移動する際に、その動きを追跡できます。カメラの角度が変わったり、他の物体が現れたりしても、システムは同じターゲットを追跡し続けます。
これは、交通状況における車の追跡など、経時的な監視を必要とするアプリケーションにとって非常に重要です。実際、YOLO11は車両を正確に追跡し、各車両を追跡してリアルタイムで速度を推定できます。これにより、オブジェクト追跡は交通監視などのシステムにおける重要な要素となります。
現実世界の物体は、常に完全に整列しているとは限りません。傾いていたり、横向きになっていたり、奇妙な角度で配置されている場合があります。たとえば、衛星画像では、船や建物が回転して見えることがよくあります。
従来の物体検出方法では、物体の向きに合わせて調整されない固定された長方形のボックスを使用するため、これらの回転した形状を正確にキャプチャすることが困難です。Oriented bounding box(OBB)検出は、オブジェクトの周りにぴったりとフィットするように回転するボックスを使用し、より正確な検出のためにその角度に合わせて調整することで、この問題を解決します。
港湾監視に関して言えば、YOLO11のOBB検出のサポートは、船舶の向きに関係なく正確に識別および追跡するのに役立ち、港に出入りするすべての船舶が適切に監視されるようにします。この正確な検出により、船舶の位置と動きに関するリアルタイムの情報が得られ、混雑した港の管理や衝突防止に不可欠です。
姿勢推定は、関節、手足、その他のマーカーなどのキーポイントを追跡して、オブジェクトの動きを理解するコンピュータビジョン技術です。オブジェクトまたは体全体を1つの完全なユニットとして扱うのではなく、この方法ではキーとなる部分に分解します。これにより、動き、ジェスチャー、インタラクションを詳細に分析できます。
このテクノロジーの一般的なアプリケーションの1つは、人間の姿勢推定です。さまざまな体の部位の位置をリアルタイムで追跡することにより、人の動きを明確に把握できます。この情報は、ジェスチャー認識や活動監視から、スポーツのパフォーマンス分析まで、さまざまな目的に使用できます。
同様に、理学療法では、セラピストは人間の姿勢推定とYOLO11を使用して、運動中の患者の動きを監視できます。これにより、各動きが正しく行われていることを確認しながら、時間の経過に伴う進捗状況を追跡できます。
YOLO11でサポートされているすべてのコンピュータビジョンタスクについて詳しく説明しましたので、YOLO11がそれらをどのようにサポートしているかを見ていきましょう。
YOLO11は単なる1つのモデルではなく、特定のコンピュータビジョンタスク向けに設計された、特殊なモデルバリアントのスイートです。これにより、YOLO11は幅広いアプリケーションに適応できる汎用性の高いツールになります。これらのモデルをカスタムデータセットで微調整して、プロジェクトの独自の課題に取り組むこともできます。
以下は、特定のビジョンタスク向けに事前学習されたYOLO11モデルのバリアントです。
各バリアントは異なるサイズで利用できるため、ユーザーは特定のニーズに合わせて速度と精度の適切なバランスを選択できます。
コンピュータビジョンのタスクは、機械が世界を理解し、相互作用する方法を変えつつあります。画像や動画を重要な要素に分解することで、これらの技術はオブジェクト、動き、インタラクションを詳細に分析することを容易にします。
交通安全やスポーツパフォーマンスの向上から、産業プロセスの合理化まで、YOLO11のようなモデルは、イノベーションを推進するリアルタイムの洞察を提供できます。Vision AIが進化し続けるにつれて、私たちが視覚データを解釈し、使用する方法において、ますます重要な役割を果たす可能性があります。
ぜひコミュニティに参加し、GitHubリポジトリにアクセスして、AIの実際の活用例をご覧ください。ソリューションページでは、ライセンスオプションを確認し、農業におけるAIや製造業におけるコンピュータビジョンについて詳しく知ることができます。