Ultralytics YOLO

アンカーフリー検出器であることによるUltralytics YOLO11の利点

Ultralytics YOLO11がどのようにアンカーフリーのオブジェクト検出をサポートしているか、またこのモデルアーキテクチャがさまざまなアプリケーションにもたらす利点を解説します。

ABAbirami Vina

5 min readDecember 5, 2024

Vision AIモデルの歴史を振り返ると、画像や動画の中からオブジェクトを識別・特定するコアなコンピュータビジョンタスクである「オブジェクト検出」という概念は、1960年代から存在していました。しかし、今日この技術が最先端のイノベーションにおいて重要な意味を持つ最大の理由は、それ以来、オブジェクト検出の手法やモデルアーキテクチャが急速に進化・改善されてきたためです。

前回の記事では、オブジェクト検出の進化と、Ultralytics YOLOモデルに至るまでの道のりについて解説しました。本稿では、この歩みにおけるより具体的なマイルストーン、つまりアンカーベースの検出器からアンカーフリーの検出器への転換に焦点を当てます。

アンカーベースの検出器は、「アンカー」と呼ばれる事前定義されたボックスを使用して、画像内のオブジェクトの位置を予測します。対照的に、アンカーフリー検出器は、これらの事前定義されたボックスを使用せず、オブジェクトの位置を直接予測します。

この移行は単純で論理的な変更のように思えるかもしれませんが、実際にはオブジェクト検出の精度と効率に大きな改善をもたらしました。本記事では、Ultralytics YOLO11のような進歩を通じて、アンカーフリー検出器がどのようにコンピュータビジョンを再構築したかを理解します。

Link to this sectionアンカーベースの検出器とは何か？#

アンカーベースの検出器は、アンカーとして知られる事前定義されたボックスを使用して、画像内のオブジェクトの位置を特定します。アンカーは、画像上に配置されたさまざまなサイズや形状のグリッド状のボックスと考えるとよいでしょう。モデルは、検出したオブジェクトに合わせてこれらのボックスを調整します。例えば、モデルが車を識別すると、アンカーボックスを車の位置とサイズに合わせてより正確に調整します。

各アンカーは画像内の潜在的なオブジェクトに関連付けられており、トレーニング中にモデルはオブジェクトの位置、サイズ、アスペクト比に一致するようにアンカーボックスを微調整する方法を学習します。これにより、モデルはさまざまなスケールや方向でオブジェクトを検出できるようになります。ただし、適切なアンカーボックスセットを選択するには時間がかかる場合があり、それらを微調整するプロセスはエラーが発生しやすいという側面があります。

アンカーボックスとは何かを説明する図

図1. アンカーボックスとは何か？

YOLOv4のようなアンカーベースの検出器は多くのアプリケーションで十分に機能してきましたが、いくつかの欠点もあります。例えば、アンカーボックスは必ずしも形状やサイズの異なるオブジェクトとうまく適合するわけではなく、小さかったり不規則な形状のオブジェクトを検出するのが難しくなります。また、アンカーボックスのサイズを選択・微調整するプロセスは時間がかかるうえ、手作業による多大な労力を必要とします。さらに、アンカーベースのモデルは、遮蔽されていたり重なり合っているオブジェクトの検出が苦手です。これは、事前定義されたボックスがこうした複雑な状況に適応しにくいためです。

Link to this sectionアンカーフリーオブジェクト検出への移行#

アンカーフリーの検出器は、2018年にCornerNetやCenterNetなどのモデルが登場し、事前定義されたアンカーボックスを不要にするという新しいアプローチを採用したことで注目を集めました。異なるサイズや形状のアンカーボックスに依存してオブジェクトの位置を予測する従来モデルとは異なり、アンカーフリーモデルはオブジェクトの位置を直接予測します。これらはオブジェクトの中心のようなキーポイントや特徴に焦点を当てるため、検出プロセスが簡素化され、より高速で高精度になります。

アンカーフリーモデルの一般的な仕組みは以下の通りです：

キーポイント検出：事前定義されたボックスを使用する代わりに、一部のモデルはオブジェクトの中心や特定のコーナーなど、オブジェクトの重要なポイントを識別します。これらのキーポイントにより、モデルはオブジェクトの場所とサイズを把握できます。
中心予測：一部のモデルはオブジェクトの中心を予測することに焦点を当てます。中心が特定されると、モデルはそこからオブジェクト全体のサイズと位置を予測できます。
ヒートマップ回帰：多くのアンカーフリーモデルはヒートマップを使用します。各ピクセルはオブジェクトが存在する可能性のある位置を表しており、ヒートマップの値が強いほど、そのポイントにオブジェクトが存在する確信度が高いことを示します。

アンカーベースの検出とアンカーフリー検出の比較

図2. アンカーベース検出とアンカーフリー検出の比較。

アンカーフリーモデルはアンカーボックスに依存しないため、設計がよりシンプルです。これは計算効率が高いことを意味します。複数のアンカーボックスを処理する必要がないため、より高速にオブジェクトを検出できます。これは、自動運転やビデオ監視などのリアルタイムアプリケーションにおいて重要な利点です。

アンカーフリーモデルは、小さく不規則なオブジェクトや、隠れているオブジェクトの処理にも非常に優れています。アンカーボックスへの適合を試みるのではなく、キーポイントの検出に焦点を当てているため、柔軟性が非常に高いです。これにより、アンカーベースモデルでは失敗する可能性のある、混雑した複雑な環境下でも正確にオブジェクトを検出できます。

Link to this sectionUltralytics YOLO11：アンカーフリー検出器#

もともと速度と効率を重視して設計されたYOLOモデルは、徐々にアンカーベースの手法からアンカーフリーの検出へと移行しており、YOLO11のようなモデルはより高速かつ柔軟になり、幅広いリアルタイムアプリケーションに適したものとなっています。

アンカーフリー設計がYOLOの各バージョンでどのように進化したかを簡単に振り返ります：

Ultralytics YOLOv5u：アンカーフリーの「Split Ultralytics Head」を導入し、事前定義されたアンカーボックスの必要性を排除しました。モデルは画像内のオブジェクトの位置を直接予測するようになり、プロセスが簡素化され、柔軟性と速度が向上しました。
YOLOv6：Anchor-Aided Training（AAT）と呼ばれる新しい手法が使用され、トレーニング中のみアンカーが使用されました。これにより、トレーニング中はアンカーベース手法の構造的な利点を活かしつつ、実行時にはアンカーフリー検出を使用することで、速度と適応性を向上させました。
Ultralytics YOLOv8：Anchor-Free Split Ultralytics Headを採用し、アンカーフリー検出へ完全移行しました。これにより、特にアンカーボックスにうまく収まらない小さかったり奇妙な形状のオブジェクトに対して、モデルはより高速かつ正確になりました。
Ultralytics YOLO11：YOLOv8のアンカーフリーアプローチをベースに、アンカーボックスを完全に排除することで検出をさらに最適化しました。動物行動モニタリングや小売分析といったリアルタイムアプリケーション向けに、より高速で高精度な検出を実現しています。

Ultralytics YOLOv8とUltralytics YOLO11の比較

図3. Ultralytics YOLOv8とUltralytics YOLO11の比較。

Link to this sectionYOLO11の現実世界での応用#

YOLO11を使用したアンカーフリー検出のメリットを示す素晴らしい例として、自動運転車両が挙げられます。自動運転車において、歩行者や他の車両、障害物を迅速かつ正確に検出することは安全のために不可欠です。YOLO11のアンカーフリー手法では、事前に定義されたアンカーボックスに頼るのではなく、歩行者の中心点や他車両の境界といったオブジェクトのキーポイントを直接予測することで、検出プロセスを簡素化します。

YOLO11におけるアンカーフリー検出のメリット

図4. YOLO11におけるアンカーフリー検出の利点（著者撮影）。

YOLO11は、計算コストが高く速度を低下させる可能性のある、アンカーグリッドを各オブジェクトに調整・適合させる必要がありません。その代わり、主要な特徴に集中するため、より高速で効率的です。例えば、歩行者が車両の進路に踏み込んだ際、たとえその人が部分的に隠れていたり移動中であっても、YOLO11はキーポイントを特定することで迅速にその位置を識別できます。アンカーボックスなしでさまざまな形状やサイズに適応できる能力により、YOLO11はより確実に、かつ高速にオブジェクトを検出できます。これは自動運転システムにおけるリアルタイムの意思決定にとって極めて重要です。

YOLO11のアンカーフリー機能が真価を発揮するその他の応用例には以下が含まれます：

小売および在庫管理: YOLO11を使用することで、棚に積み重ねられていたり部分的に隠れていたりする場合でも、商品の監視が容易になります。これは、より迅速で正確な在庫追跡に貢献し、ミスの削減につながります。
医療画像診断: YOLO11はヘルスケア分野でも効果を発揮し、医療スキャン画像における腫瘍やその他の異常を検出できます。不規則な形状のオブジェクトを処理できる能力は、複雑な疾患の診断精度向上に寄与します。
野生動物のモニタリング: 野生動物の研究において、YOLO11は深い森や過酷な地形における動物の追跡が可能であり、研究者が行動を監視したり、絶滅危惧種を保護したりする一助となります。
スポーツ分析: YOLO11は、スポーツイベント中に選手やボールの動きなどをリアルタイムで追跡するために使用でき、チーム、コーチ、放送関係者に対して価値ある洞察を提供します。

Link to this sectionアンカーフリーモデルに取り組む際の考慮事項#

YOLO11のようなアンカーフリーモデルには多くの利点がある一方、一定の限界もあります。主要な実務上の考慮事項として、アンカーフリーモデルであっても遮蔽や極度の重なりが発生するオブジェクトには苦戦する場合があるという点が挙げられます。その根拠として、コンピュータビジョンは人間の視覚を再現することを目指しており、人間が遮蔽されたオブジェクトを特定するのに苦労することがあるのと同様に、AIモデルも同様の課題に直面するということが挙げられます。

もう一つの興味深い要素は、モデル予測の処理に関連するものです。アンカーフリーモデルのアーキテクチャはアンカーベースよりもシンプルですが、特定のケースでは追加の調整が必要になる場合があります。例えば、重なり合う予測を整理したり、混雑したシーンでの精度を向上させたりするために、非最大値抑制（NMS）のような後処理手法が必要になることがあります。

Link to this sectionYOLO11でAIの未来を確固たるものにする#

アンカーベースからアンカーフリー検出への転換は、オブジェクト検出における重要な進歩でした。YOLO11のようなアンカーフリーモデルにより、プロセスは簡素化され、精度と速度の両面で向上が見られます。

YOLO11を通じて、私たちはアンカーフリーのオブジェクト検出が、迅速かつ正確な検出が不可欠な自動運転車、ビデオ監視、医療画像といったリアルタイムアプリケーションでいかに優れているかを目の当たりにしてきました。このアプローチにより、YOLO11はさまざまなオブジェクトサイズや複雑なシーンにより容易に適応できるようになり、多様な環境下でより優れたパフォーマンスを提供します。

コンピュータビジョンが進化し続けるにつれ、オブジェクト検出は今後、さらに高速で柔軟、かつ効率的なものになっていくでしょう。

当社のGitHubリポジトリを探索し、活発なコミュニティに参加して、AIのあらゆる最新情報をキャッチアップしてください。ビジョンAIが製造や農業といった分野にどのような影響を与えているかをご確認ください。

Explore solutions

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

アンカーフリー検出器であることによるUltralytics YOLO11の利点

Link to this sectionアンカーベースの検出器とは何か？#

Link to this sectionアンカーフリーオブジェクト検出への移行#

Link to this sectionUltralytics YOLO11：アンカーフリー検出器#

Link to this sectionYOLO11の現実世界での応用#

Link to this sectionアンカーフリーモデルに取り組む際の考慮事項#

Link to this sectionYOLO11でAIの未来を確固たるものにする#

Explore solutions

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

ロボティクスにおけるAI

物流におけるAI

小売業界におけるAI

ヘルスケアにおけるAI

製造におけるAI

自動車におけるAI

農業におけるAI

AIの未来を共に築き上げましょう！