オブジェクトトラッキング、インスタンスセグメンテーション、画像分類などのコンピュータビジョンタスクがどのように機能し、Ultralytics YOLO11 それらをどのようにサポートしているかを学びます。
カメラや人工知能(AI)の進歩のおかげで、コンピューターや機械は人間と同じような方法で世界を見ることができるようになった。例えば、人物を認識したり、物体を追跡したり、映像の中で起こっていることの文脈を理解することさえできる。
具体的には、コンピュータ・ビジョンは、機械が周囲の世界から視覚情報を理解し、解釈することを可能にするAIの一分野である。コンピュータ・ビジョンには様々なタスクがあり、それぞれが画像やビデオから特定の種類の洞察を抽出するように設計されている。例えば、物体検出は、画像内の異なるアイテムを識別し、位置を特定するのに役立ち、追跡、セグメンテーション、ポーズ推定などの他のタスクは、マシンが動き、形状、位置をより正確に理解するのに役立ちます。
特定のアプリケーションに使用されるコンピュータビジョンタスクは、必要な洞察力の種類によって異なります。以下のようなコンピュータ・ビジョン・モデル Ultralytics YOLO11のようなコンピュータビジョンモデルは、様々なコンピュータビジョンタスクをサポートしており、実世界のビジョンAIシステムを構築するための信頼できる選択肢となっています。
このガイドでは、YOLO11ようなモデルがサポートするコンピュータビジョンタスクを詳しく見ていきます。各タスクがどのように機能し、さまざまな業界でどのように使用されているかを探ります。始めましょう!
コンピュータビジョンタスクは、人間の視覚能力をさまざまな方法で再現することを目的としている。これらのタスクは、機械が物体を検出したり、その動きを追跡したり、ポーズを推定したり、画像やビデオ内の個々の要素の輪郭を描いたりするのに役立ちます。通常、コンピュータ・ビジョン・タスクは、視覚データをより小さな部分に分割するモデルによって実現され、何が起こっているかをより明確に解釈できるようになる。
Ultralytics YOLO モデルのようなビジョンAIモデルは、1つのフレームワークで検出、追跡、セグメンテーションなどの複数のタスクをサポートします。この汎用性により、YOLO11 モデルは様々なユースケースに採用しやすくなっています。
その良い例がスポーツ分析だ。YOLO11 、オブジェクト検出機能を使ってフィールド上の各選手を検出し、オブジェクトトラッキング機能を使って試合中ずっと選手を追跡することができます。一方、YOLO11ポーズ推定機能は、選手の動きやテクニックの分析に役立ち、インスタンス・セグメンテーションは、各選手を背景から分離し、分析に精度を加えることができます。
これらのYOLO11コンピュータービジョンタスクを組み合わせることで、試合中に起きていることの全体像が描かれ、チームは選手のパフォーマンス、戦術、全体的な戦略についてより深い洞察を得ることができます。
さて、コンピュータ・ビジョン・タスクとは何かを見てきたところで、YOLO11 サポートする各タスクについて、実例を用いてより詳しく理解していこう。
写真を見て、それが犬なのか、山なのか、交通標識なのか、たいていの人は簡単に見分けることができる。画像分類は、「車」、「バナナ」、「骨折のレントゲン」など、主な対象物に基づいて画像を分類し、ラベルを付ける方法を機械に教えることで、機械が同じように分類するのを助ける。このラベルは、コンピュータ・ビジョン・システムが視覚的な内容を理解するのに役立ち、それに応じて反応したり判断したりできるようになります。
このコンピュータ・ビジョン・タスクの興味深い応用例のひとつに、野生動物のモニタリングがある。画像分類は、野生で撮影された写真から異なる動物種を識別するために使用できる。画像に自動的にラベル付けすることで、研究者は個体数を追跡し、移動パターンを監視し、絶滅危惧種をより簡単に特定し、保護活動を支援することができる。
画像分類は、画像に何が含まれているかを全体的に把握するのに役立つが、画像全体に1つのラベルを割り当てるだけである。複数の物体の正確な位置や正体など、詳細な情報が必要な状況では、物体検出が不可欠となる。
物体検出は、画像内の個々の物体を識別し、位置を特定するプロセスであり、多くの場合、物体の周囲にバウンディングボックスを描画します。Ultralytics YOLO11 11は、リアルタイムの物体検出に特に優れており、幅広いアプリケーションに最適です。
例えば、小売店で棚卸しに使われているコンピュータ・ビジョン・ソリューション。物体検出は、果物、野菜、その他の商品を数え、正確な在庫を確保するのに役立つ。農業分野では、同じ技術で作物の成熟度を監視し、農家が収穫の最適な時期を判断するのを助けることができる。
オブジェクト検出では、バウンディングボックスを使用して画像内のオブジェクトを識別し、位置を特定するが、正確な形状をキャプチャすることはできない。そこで、インスタンス分割の出番となる。インスタンス分割は、オブジェクトの周囲にボックスを描く代わりに、その正確な輪郭をトレースします。
単純に「この辺りにリンゴがある」と示すのではなく、リンゴの正確な形を注意深く輪郭を描いて塗りつぶすのだ。この詳細なプロセスは、AIシステムが物体の境界を明確に理解するのに役立つ。
インスタンス・セグメンテーションは、インフラ検査から地質調査まで、多くのアプリケーションに適用できる。例えば、地質調査からのデータをYOLO11 分析し、表面の亀裂や異常の大小をセグメント化することができる。これらの異常の周囲に正確な境界線を引くことで、エンジニアは問題をピンポイントで特定し、プロジェクト開始前に対処することができる。
これまで見てきたコンピュータ・ビジョンのタスクは、1枚の画像に何が写っているかに焦点を当てている。しかし、動画となると、1フレームを超えた洞察が必要になる。オブジェクト追跡というタスクは、このような場合に利用できます。
YOLO11オブジェクト・トラッキング機能は、人や車など特定のオブジェクトが一連のビデオフレームを移動するのを追跡することができます。カメラのアングルが変わったり、他の物体が現れたりしても、システムは同じターゲットを追い続けます。
これは、交通渋滞中の車の追跡など、長期的な監視が必要なアプリケーションにとって極めて重要である。実際、YOLO11 11は車両を正確に追跡し、各車両を追跡してリアルタイムで速度を推定することができる。このため、物体追跡は交通監視のようなシステムにおいて重要な要素となる。
現実世界の物体は常に完全に一直線に並んでいるわけではなく、傾いていたり、横を向いていたり、変な角度で配置されていたりする。例えば、衛星写真では、船や建物が回転して見えることがよくある。
従来のオブジェクト検出方法では、オブジェクトの向きに合わせない固定された長方形のボックスを使用するため、このような回転した形状を正確に捉えることが困難でした。OBB(Oriented bounding box)検出は、オブジェクトの周りにぴったりとフィットするように回転するボックスを使用することで、この問題を解決し、より正確な検出のためにオブジェクトの角度に合わせます。
港湾監視に関しては、YOLO11OBB検知サポートにより、船舶の向きに関係なく正確に船舶を識別・追跡することができ、港湾に出入りするすべての船舶を適切に監視することができます。この正確な検知は、船舶の位置や動きに関するリアルタイム情報を提供し、混雑する港湾の管理や衝突の防止に不可欠です。
ポーズ推定とは、関節や手足などのキーポイントを追跡し、物体の動きを理解するコンピュータビジョン技術である。この手法では、物体や身体全体を1つの完全なユニットとして扱うのではなく、主要なパーツに分解します。これにより、動き、ジェスチャー、インタラクションを詳細に分析することが可能になる。
この技術の一般的な応用例として、人間のポーズ推定がある。身体の様々な部位の位置をリアルタイムで追跡することで、人がどのように動いているかを明確に把握することができる。この情報は、ジェスチャー認識や活動モニタリングからスポーツにおけるパフォーマンス分析まで、さまざまな目的に利用できる。
同様に、身体リハビリテーションでは、セラピストは人間のポーズ推定とYOLO11 、エクササイズ中の患者の動きをモニターすることができる。これは、時間の経過とともに進歩を追跡しながら、各動作が正しく行われていることを確認するのに役立つ。
YOLO11 サポートするすべてのコンピュータ・ビジョン・タスクについて詳しく説明したところで、YOLO11 どのようにサポートしているかを見ていこう。
YOLO11 単なる1つのモデルではなく、それぞれが特定のコンピュータビジョンタスクのために設計された、特化されたモデルバリアントのスイートです。このため、YOLO11 11は幅広い用途に適応できる汎用性の高いツールとなっています。また、プロジェクトのユニークな課題に取り組むために、カスタムデータセット上でこれらのモデルを微調整することもできます。
以下は、特定の視覚タスク用に事前にトレーニングされたYOLO11 モデルのバリエーションです:
各バリエーションには異なるサイズがあり、ユーザーはそれぞれのニーズに合わせてスピードと精度のバランスを選ぶことができる。
コンピュータ・ビジョンのタスクは、機械が世界を理解し相互作用する方法を変えつつある。画像やビデオを重要な要素に分解することで、これらのテクノロジーは物体、動き、相互作用を詳細に分析することを容易にします。
交通安全やスポーツパフォーマンスの向上から工業プロセスの合理化まで、YOLO11 ようなモデルは、イノベーションを推進するリアルタイムの洞察を提供することができる。ビジョンAIが進化し続けるにつれて、私たちが日々視覚データを解釈し使用する方法において、ますます重要な役割を果たすようになるだろう。
私たちのコミュニティに参加し、GitHub リポジトリを訪れて、AI が実際に動いている様子をご覧ください。私たちのライセンスオプションを検討し、私たちのソリューションのページで農業におけるAIと 製造業におけるコンピュータビジョンについての詳細をご覧ください。