オブジェクトトラッキング、インスタンスセグメンテーション、画像分類などのコンピュータビジョンタスクがどのように機能し、Ultralytics YOLO11 それらをどのようにサポートしているかを学びます。

オブジェクトトラッキング、インスタンスセグメンテーション、画像分類などのコンピュータビジョンタスクがどのように機能し、Ultralytics YOLO11 それらをどのようにサポートしているかを学びます。

カメラや人工知能(AI)の進歩のおかげで、コンピューターや機械は人間と同じような方法で世界を見ることができるようになった。例えば、人物を認識したり、物体をtrack したり、映像の中で起こっていることの文脈を理解することさえできる。
具体的には、コンピュータビジョンは、機械が周囲の世界から視覚情報を理解し、解釈することを可能にするAIの分野です。コンピュータビジョンは、画像や動画から特定の種類の洞察を抽出するように設計されたさまざまなタスクを含みます。例えば、物体検出は、写真内の異なるアイテムを識別して特定するのに役立ち、トラッキング、セグメンテーション、姿勢推定などの他のタスクは、機械が動き、形状、および位置をより正確に理解するのに役立ちます。
特定のアプリケーションに使用されるコンピュータビジョンタスクは、必要な洞察力の種類によって異なります。以下のようなコンピュータ・ビジョン・モデル Ultralytics YOLO11のようなコンピュータビジョンモデルは、様々なコンピュータビジョンタスクをサポートしており、実世界のビジョンAIシステムを構築するための信頼できる選択肢となっています。
このガイドでは、YOLO11ようなモデルがサポートするコンピュータビジョンタスクを詳しく見ていきます。各タスクがどのように機能し、さまざまな業界でどのように使用されているかを探ります。始めましょう!
コンピュータビジョンタスクは、人間の視覚能力をさまざまな方法で再現することを目的としている。これらのタスクは、機械が物体をdetect したり、その動きをtrack したり、ポーズを推定したり、画像やビデオ内の個々の要素の輪郭を描いたりするのに役立ちます。通常、コンピュータ・ビジョン・タスクは、視覚データをより小さな部分に分割するモデルによって実現され、何が起こっているかをより明確に解釈できるようになる。
Ultralytics YOLO モデルのようなビジョンAIモデルは、1つのフレームワークで検出、追跡、セグメンテーションなどの複数のタスクをサポートします。この汎用性により、YOLO11 モデルは様々なユースケースに採用しやすくなっています。

その良い例がスポーツ分析だ。YOLO11 、オブジェクト検出機能を使ってフィールド上の各選手をdetect 、オブジェクトトラッキング機能を使って試合中ずっと選手を追跡することができます。一方、YOLO11ポーズ推定機能は、選手の動きやテクニックを分析するのに役立ち、インスタンス・セグメンテーションは、各選手を背景から分離し、分析に精度を加えることができます。
これらのYOLO11コンピュータビジョンタスクを組み合わせることで、試合中に起きていることの全体像が描かれ、チームは選手のパフォーマンス、戦術、全体的な戦略についてより深い洞察を得ることができます。
さて、コンピュータ・ビジョン・タスクとは何かを見てきたところで、YOLO11 サポートするそれぞれのタスクについて、実例を用いてより詳しく理解していこう。
写真を見て、それが犬なのか、山なのか、交通標識なのか、たいていの人は簡単に見分けることができる。画像分類は、「車」、「バナナ」、「骨折のレントゲン」など、主な対象に基づいて画像をclassify し、ラベルを付ける方法を機械に教えることで、機械が同じように分類するのを助ける。このラベルは、コンピュータ・ビジョン・システムが視覚的な内容を理解するのに役立ち、それに応じて反応したり判断したりできるようになります。
このコンピュータ・ビジョン・タスクの興味深い応用例のひとつに、野生動物のモニタリングがある。画像分類は、野生で撮影された写真から異なる動物種を識別するために使用できる。画像に自動的にラベル付けすることで、研究者は個体数をtrack し、移動パターンを監視し、絶滅危惧種をより簡単に特定し、保護活動を支援することができる。

画像分類は、画像に何が含まれているかという全体的なアイデアを得るのに役立ちますが、画像全体に1つのラベルしか割り当てません。複数のオブジェクトの正確な位置や識別など、詳細な情報が必要な状況では、物体検出が不可欠になります。
物体検出は、画像内の個々の物体を識別し、位置を特定するプロセスであり、多くの場合、物体の周囲にバウンディングボックスを描画します。Ultralytics YOLO11 11は、リアルタイムの物体検出に特に優れており、幅広いアプリケーションに最適です。
たとえば、棚の在庫管理のために小売店で使用されるコンピュータビジョンソリューションを例にとってみましょう。物体検出は、果物、野菜、その他の品物を数え、正確な在庫を確保するのに役立ちます。農業分野では、同じ技術で作物の成熟度を監視し、農家が収穫に最適な時期を判断するのに役立ち、熟した農産物と未熟な農産物を区別することもできます。
.webp)
物体検出は、バウンディングボックスを使用して画像内の物体を識別し、位置を特定しますが、それらの正確な形状を捉えることはできません。そこでインスタンスセグメンテーションが登場します。インスタンスセグメンテーションは、物体の周囲にボックスを描画する代わりに、その正確な輪郭をトレースします。
たとえば、「この領域にリンゴがある」と単に示すのではなく、リンゴの正確な形状を注意深く輪郭を描き、塗りつぶすようなものだと考えることができます。この詳細なプロセスは、特にオブジェクトが互いに接近している場合に、AIシステムがオブジェクトの境界を明確に理解するのに役立ちます。
インスタンス・セグメンテーションは、インフラ検査から地質調査まで、多くのアプリケーションに適用できる。例えば、地質調査のデータをYOLO11 解析し、表面の亀裂や異常箇所を大小にかかわらずsegment することができる。これらの異常の周囲に正確な境界線を引くことで、エンジニアは問題をピンポイントで特定し、プロジェクト開始前に対処することができる。

これまで見てきたコンピュータビジョンのタスクは、一枚の画像に何が写っているかに焦点を当てたものでした。しかし、動画となると、1フレームにとどまらない洞察が必要です。そこで、物体追跡というタスクが活用できます。
YOLO11オブジェクト・トラッキング機能は、人や車などの特定のオブジェクトが一連のビデオフレームを移動するのを追跡することができます。カメラのアングルが変わったり、他の物体が現れたりしても、システムは同じターゲットを追い続けます。
これは、交通渋滞中の車の追跡など、長期的な監視が必要なアプリケーションにとって極めて重要である。実際、YOLO11 11は車両を正確にtrack し、各車両を追跡してリアルタイムで速度を推定することができる。このため、物体追跡は交通監視のようなシステムにおいて重要な要素となる。

現実世界の物体は、常に完全に整列しているとは限りません。傾いていたり、横向きになっていたり、奇妙な角度で配置されている場合があります。たとえば、衛星画像では、船や建物が回転して見えることがよくあります。
従来の物体検出方法では、物体の向きに合わせて調整されない固定された長方形のボックスを使用するため、これらの回転した形状を正確にキャプチャすることが困難です。Oriented bounding box(OBB)検出は、オブジェクトの周りにぴったりとフィットするように回転するボックスを使用し、より正確な検出のためにその角度に合わせて調整することで、この問題を解決します。
港湾監視に関しては、YOLO11OBB検出サポートは、船舶の向きに関係なく正確に船舶を識別・track するのに役立ち、港湾に出入りするすべての船舶が適切に監視されることを保証します。この正確な検知は、船舶の位置や動きに関するリアルタイム情報を提供し、混雑する港湾の管理や衝突の防止に不可欠です。

姿勢推定は、関節、手足、その他のマーカーなどのキーポイントを追跡して、オブジェクトの動きを理解するコンピュータビジョン技術です。オブジェクトまたは体全体を1つの完全なユニットとして扱うのではなく、この方法ではキーとなる部分に分解します。これにより、動き、ジェスチャー、インタラクションを詳細に分析できます。
このテクノロジーの一般的なアプリケーションの1つは、人間の姿勢推定です。さまざまな体の部位の位置をリアルタイムで追跡することにより、人の動きを明確に把握できます。この情報は、ジェスチャー認識や活動監視から、スポーツのパフォーマンス分析まで、さまざまな目的に使用できます。
同様に、身体リハビリテーションでは、セラピストは人間のポーズ推定とYOLO11 、エクササイズ中の患者の動きをモニターすることができる。これは、時間の経過とともに進歩を追跡しながら、各動作が正しく行われていることを確認するのに役立つ。

YOLO11 サポートするすべてのコンピュータ・ビジョン・タスクについて詳しく説明したところで、YOLO11 どのようにサポートしているかを見ていこう。
YOLO11 単なる1つのモデルではなく、それぞれが特定のコンピュータビジョンタスクのために設計された、特化されたモデルバリアントのスイートです。このため、YOLO11 11は幅広い用途に適応できる汎用性の高いツールとなっています。また、プロジェクトのユニークな課題に取り組むために、カスタムデータセット上でこれらのモデルを微調整することもできます。
以下は、特定の視覚タスク用に事前にトレーニングされたYOLO11 モデルのバリエーションです:
各バリアントは異なるサイズで利用できるため、ユーザーは特定のニーズに合わせて速度と精度の適切なバランスを選択できます。
コンピュータビジョンのタスクは、機械が世界を理解し、相互作用する方法を変えつつあります。画像や動画を重要な要素に分解することで、これらの技術はオブジェクト、動き、インタラクションを詳細に分析することを容易にします。
交通安全やスポーツパフォーマンスの向上から工業プロセスの合理化まで、YOLO11 ようなモデルは、イノベーションを推進するリアルタイムの洞察を提供することができる。ビジョンAIが進化し続けるにつれて、私たちが毎日視覚データを解釈し使用する方法において、ますます重要な役割を果たすようになるだろう。
ぜひコミュニティに参加し、GitHubリポジトリにアクセスして、AIの実際の活用例をご覧ください。ソリューションページでは、ライセンスオプションを確認し、農業におけるAIや製造業におけるコンピュータビジョンについて詳しく知ることができます。