ヨロビジョン深圳
深セン
今すぐ参加

Ultralytics YOLO11がアンカーフリー検出器であることの利点

Abirami Vina

5分で読めます

2024年12月5日

Ultralytics YOLO11がアンカーフリーの物体検出をどのようにサポートするか、およびこのモデルアーキテクチャがさまざまなアプリケーションにもたらす利点について理解してください。

Vision AIモデルの歴史を振り返ると、画像またはビデオ内のオブジェクトを識別して位置を特定する、コアとなるコンピュータビジョンタスクである物体検出の概念は、1960年代から存在しています。しかし、今日の最先端のイノベーションにおけるその重要性の主な理由は、それ以来、物体検出技術とモデルアーキテクチャが高度化し、急速に改善されたことです。 

以前の記事では、物体検出の進化と、Ultralytics YOLOモデルに至るまでの道のりについて説明しました。今回は、この道のりにおけるより具体的なマイルストーン、つまりアンカーベースの検出器からアンカーフリーの検出器への移行に焦点を当てます。 

アンカーベースの検出器は、画像内のオブジェクトの位置を予測するために、「アンカー」と呼ばれる定義済みのボックスに依存します。対照的に、アンカーフリー検出器は、これらの定義済みボックスをスキップし、代わりにオブジェクトの位置を直接予測します。

この移行は単純で論理的な変更のように思えるかもしれませんが、実際には物体検出の精度と効率が大幅に向上しました。この記事では、アンカーフリー検出器がUltralytics YOLO11のような進歩を通じて、コンピュータビジョンをどのように再構築してきたかを理解します。

アンカーベースの検出器とは何ですか?

アンカーベースの検出器は、アンカーと呼ばれる事前定義されたボックスを使用して、画像内のオブジェクトの位置を特定します。これらのアンカーは、画像上に配置されたさまざまなサイズと形状のボックスのグリッドとして考えてください。次に、モデルはこれらのボックスを調整して、検出したオブジェクトに適合させます。たとえば、モデルが車を識別した場合、アンカーボックスを修正して、車の位置とサイズにより正確に一致させます。

各アンカーは、画像内の可能なオブジェクトに関連付けられており、トレーニング中に、モデルはアンカーボックスを調整して、オブジェクトの位置、サイズ、アスペクト比により良く一致させる方法を学習します。これにより、モデルはさまざまなスケールと方向でオブジェクトを検出できます。ただし、適切なアンカーボックスのセットを選択するには時間がかかる場合があり、それらを微調整するプロセスはエラーが発生しやすい可能性があります。

__wf_reserved_inherit
図1. アンカーボックスとは?

YOLOv4のようなアンカーベースの検出器は多くのアプリケーションでうまく機能していますが、いくつかの欠点があります。例えば、アンカーボックスは常に異なる形状やサイズのオブジェクトとうまく整列するとは限らず、モデルが小さかったり不規則な形状のオブジェクトを検出するのが難しくなります。アンカーボックスのサイズを選択して微調整するプロセスも時間がかかり、多くの手作業が必要です。これに加えて、アンカーベースのモデルは、事前定義されたボックスがより複雑なシナリオにうまく適応できないため、遮蔽されたオブジェクトや重複するオブジェクトの検出に苦労することがよくあります。

アンカーフリー物体検出への移行

アンカーフリー検出器は、定義済みのアンカーボックスを必要とせずにオブジェクト検出への新たなアプローチをとったCornerNetやCenterNetのようなモデルで2018年に注目を集め始めました。オブジェクトの位置を予測するためにさまざまなサイズと形状のアンカーボックスに依存する従来のモデルとは異なり、アンカーフリーモデルはオブジェクトの位置を直接予測します。これらは、オブジェクトの中心のようなキーポイントまたは特徴に焦点を当て、検出プロセスを簡素化し、より高速かつ正確にします。

アンカーフリーモデルが一般的にどのように機能するかを以下に示します。

  • キーポイント検出: 定義済みのボックスを使用する代わりに、一部のモデルは、オブジェクトの中心や特定の角などのオブジェクト上の重要なポイントを識別します。これらのキーポイントは、モデルがオブジェクトの位置とサイズを把握するのに役立ちます。
  • 中心予測: オブジェクトの中心の予測に焦点を当てたモデルもあります。中心の位置が特定されると、モデルはそこからオブジェクト全体のサイズと位置を予測できます。
  • ヒートマップ回帰: 多くのアンカーフリーモデルはヒートマップを使用します。各ピクセルはオブジェクトの可能な位置を表します。ヒートマップの値が強いほど、そのポイントにオブジェクトが存在する信頼度が高いことを示します。
__wf_reserved_inherit
Fig 2. Anchor-Based DetectionとAnchor-Free Detectionの比較。

アンカーフリーモデルは、アンカーボックスに依存しないため、設計がよりシンプルです。つまり、計算効率が高いということです。複数のアンカーボックスを処理する必要がないため、より迅速にオブジェクトを検出できます。これは、自動運転やビデオ監視などのリアルタイムアプリケーションにおいて重要な利点です。 

アンカーフリーモデルは、小さく、不規則な、または閉塞されたオブジェクトの処理にもはるかに優れています。アンカーボックスを適合させようとするのではなく、キーポイントの検出に焦点を当てているため、はるかに柔軟性があります。これにより、アンカーベースのモデルが失敗する可能性のある、乱雑または複雑な環境でオブジェクトを正確に検出できます。

Ultralytics YOLO11:アンカーフリー検出器

元々、速度と効率のために設計されたYOLOモデルは、アンカーベースの手法からアンカーフリー検出へと徐々に移行し、YOLO11のようなモデルは、より高速で柔軟性があり、幅広いリアルタイムアプリケーションに適しています。

アンカーフリー設計がさまざまなYOLOバージョンでどのように進化したかの概要を以下に示します。

  • Ultralytics YOLOv5u: Anchor-Free Split Ultralytics Headを導入し、事前定義されたアンカーボックスの必要性をなくしました。その代わりに、モデルは画像内のオブジェクトの位置を直接予測し、プロセスを簡素化し、柔軟性と速度を向上させます。
  • YOLOv6: Anchor-Aided Training(AAT)と呼ばれる新しい手法が使用されました。ここでは、アンカーはトレーニング中にのみ使用されました。これにより、モデルはトレーニング中にアンカーベースの手法の構造から恩恵を受けることができ、実行時にはより優れた速度と適応性のためにアンカーフリー検出を使用できます。
  • Ultralytics YOLOv8: Anchor-Free Split Ultralytics Headを使用することで、完全にアンカーフリー検出に切り替えました。これにより、モデルはより高速かつ正確になり、特にアンカーボックスにうまく適合しない小型または異形のオブジェクトに有効です。
  • Ultralytics YOLO11: YOLOv8のアンカーフリーのアプローチを基に構築されており、アンカーボックスを完全になくすことで、検出をさらに最適化しています。これにより、動物の行動監視や小売分析などのリアルタイムアプリケーションにおいて、より高速で正確な検出が可能になります。
__wf_reserved_inherit
図3. Ultralytics YOLOv8とUltralytics YOLO11の比較。

YOLO11 の実世界での応用

YOLO11を使用したアンカーフリー検出の利点を示す良い例は、自動運転車です。自動運転車では、歩行者、他の車両、および障害物を迅速かつ正確に検出することが安全のために不可欠です。YOLO11のアンカーフリーアプローチは、定義済みのアンカーボックスに依存するのではなく、歩行者の中心や他の車両の境界などのオブジェクトのキーポイントを直接予測することで、検出プロセスを簡素化します。 

__wf_reserved_inherit
図4. YOLO11におけるAnchor-Free Detectionの利点(画像は著者による)。

YOLO11は、計算コストがかかり速度が低下する可能性のある、各オブジェクトにアンカーのグリッドを調整または適合させる必要がありません。代わりに、主要な特徴に焦点を当てることで、より高速かつ効率的になります。たとえば、歩行者が車両の進路に足を踏み入れた場合、YOLO11は、人が部分的に隠れていたり、移動していたりしても、キーポイントを特定することで、その場所を迅速に特定できます。アンカーボックスなしでさまざまな形状やサイズに適応できるため、YOLO11はオブジェクトをより確実に、より高速に検出できます。これは、自動運転システムにおけるリアルタイムの意思決定に不可欠です。

YOLO11のアンカーフリー機能が特に際立っているその他のアプリケーションには、以下が含まれます。

  • 小売および在庫管理: YOLO11を使用すると、棚に並んでいる製品を、積み重ねられていたり、部分的に遮られていたりする場合でも、簡単に監視できます。これにより、より迅速かつ正確な在庫追跡が可能になり、エラーが削減されます。
  • 医用画像処理: YOLO11はヘルスケアでも効果的で、医療スキャンで腫瘍やその他の異常を検出できます。不規則な形状のオブジェクトを扱えるため、複雑な状態の診断精度向上に役立ちます。
  • 野生生物のモニタリング: 野生生物調査において、YOLO11は、密集した森林や困難な地形にいる動物を追跡し、研究者が行動を監視したり、絶滅危惧種を保護したりするのに役立ちます。
  • スポーツ分析: YOLO11を使用して、スポーツイベント中にプレーヤー、ボールの動き、またはその他の要素をリアルタイムで追跡し、チーム、コーチ、放送局に貴重な洞察を提供できます。

アンカーフリーモデルを使用する際の考慮事項

YOLO11のようなアンカーフリーモデルは多くの利点がある一方で、特定の制限もあります。考慮すべき主な実用的な点の一つは、アンカーフリーモデルであっても、遮蔽や高度に重複したオブジェクトの検出に苦労する可能性があることです。その背景にある理由は、コンピュータビジョンは人間の視覚を再現することを目的としており、私たち人間が遮蔽されたオブジェクトの識別で苦労することがあるように、AIモデルも同様の課題に直面する可能性があるためです。

もう一つの興味深い要素は、モデルの予測処理に関連しています。アンカーフリーモデルのアーキテクチャはアンカーベースモデルよりも単純ですが、特定の場合には追加の改良が必要になります。たとえば、混雑したシーンでの重複する予測を整理したり、精度を向上させるために、Non-Maximum Suppression(NMS)のような後処理技術が必要になる場合があります。

YOLO11によるAIの未来を固定する

アンカーベースからアンカーフリー検出への移行は、物体検出における重要な進歩でした。YOLO11のようなアンカーフリーモデルを使用すると、プロセスが簡素化され、精度と速度の両方が向上します。

YOLO11を通じて、アンカーフリーの物体検出が、高速かつ正確な検出が不可欠な自動運転車、ビデオ監視、医療画像処理などのリアルタイムアプリケーションで優れていることがわかりました。このアプローチにより、YOLO11はさまざまなオブジェクトサイズや複雑なシーンに容易に適応でき、多様な環境でより優れたパフォーマンスを提供します。

コンピュータビジョンが進化し続けるにつれて、物体検出はより高速、より柔軟、より効率的になるだけです。

AIに関する最新情報を入手するには、GitHubリポジトリをご覧いただき、活気あるコミュニティにご参加ください。製造業農業など、ビジョンAIが各分野にどのような影響を与えているかをご覧ください。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました