指向性バウンディングボックス(OBB)検出が、現実世界のアプリケーションにおいて、画像内の回転したオブジェクトを正確に識別することにより、オブジェクト検出をどのように強化するかを探ります。

指向性バウンディングボックス(OBB)検出が、現実世界のアプリケーションにおいて、画像内の回転したオブジェクトを正確に識別することにより、オブジェクト検出をどのように強化するかを探ります。
オブジェクトがどのように配置されていようと、どの方向を向いていようと、それを認識することは、人間にとっては自然なことです。交差点にある車や港にあるボートなど、私たちはそれが何であるか、どちらの方向を向いているかを容易に判断できます。しかし、人工知能(AI)システムにとっては、そう簡単ではありません。
例えば、画像や動画の理解に焦点を当てたAIの一分野であるコンピュータビジョンは、物体検出などのタスクを可能にし、機械がシーン内の物体を識別して特定するのに役立ちます。従来の物体検出は、軸に沿ったバウンディングボックスを使用して物体の周りにボックスを描画します。これらのボックスは、直線的な側面と固定された直角を持っています。このアプローチは、物体が直立しており、互いに近すぎない場合にうまく機能します。
しかし、オブジェクトが傾いたり、回転したり、互いに接近している場合、従来の物体検出では正確に捉えるのが難しいことがよくあります。これらのより複雑な状況に対処するために、Oriented Bounding Box(OBB)検出などの手法が導入されました。標準のバウンディングボックスとは異なり、OBBは回転してオブジェクトの角度と形状に合わせることができ、よりタイトで正確なフィットを可能にします。
OBB検出をサポートするUltralytics YOLO11のようなコンピュータビジョンモデルは、特に航空監視など、オブジェクトの向きが重要なシナリオで、さまざまなリアルタイムアプリケーションを可能にします。それ以外にも、OBB検出は、ヘルスケア、農業、およびドキュメント分析でも使用されています。
この記事では、OBB検出とは何か、その仕組み、そして実際のシナリオでどこに適用されているかについて解説します。それでは、始めましょう!
指向性バウンディングボックスは、コンピュータビジョンで画像内の検出されたオブジェクトを表すために使用される長方形のボックスの一種です。標準のバウンディングボックスは画像の水平軸と垂直軸に沿って配置されますが、OBBはオブジェクトの実際の角度に合わせて回転できます。
この回転する能力は、いくつかの利点をもたらします。OBBは、オブジェクトの向きにより近い位置に揃えることができるため、ボックスをオブジェクトの形状と方向にぴったりと合わせることができます。その結果、検出がより正確かつ精密になります。
OBBは、航空映像に映るカーブした道路を曲がる車、机の上の傾いた本、医療スキャンで回転した腫瘍など、物体が完全に直立していない場合に特に役立ちます。物体の角度をより正確に一致させることで、OBBは検出性能を向上させ、背景の干渉を減らし、物体の位置と同じくらいにその向きが重要なアプリケーションに特に適しています。
OBB検出と従来の物体検出は、最初は似ているように見えるかもしれませんが、異なる方法で、異なる状況で使用されます。例を挙げて、それらがどのように比較されるかを詳しく見てみましょう。
YOLO11などのコンピュータビジョンモデルは、産業検査など、さまざまな現実世界のアプリケーションでオブジェクトを検出および分類するようにトレーニングできます。異なる機械部品がコンベヤーベルトに沿って移動する工場の組立ラインを考えてみましょう。一部の部品はきちんと配置されているかもしれませんが、振動や速度のためにわずかに回転したり、傾いたり、重なったりする可能性があります。
従来の物体検出では、画像の水平方向および垂直方向のエッジに沿った、直立した長方形のボックスを使用します。そのため、部品が回転すると、ボックスが適切にフィットしない可能性があり、オブジェクトの一部が除外されたり、背景が多すぎたりする可能性があります。これにより、検出の精度が低下し、システムが部品を確実に識別することが難しくなる可能性があります。
OBB検出を使用しているとしましょう。この場合、モデルは各パーツの正確な角度に合わせて回転するボックスを描画できます。傾いたギアまたは角度の付いたコンポーネントは、その形状と方向に合わせてボックスでしっかりと囲まれます。これは、特に自動品質管理やロボットによる仕分けなどのユースケースに関して、精度が向上し、エラーが減り、より信頼性の高い結果が得られることを意味します。
OBB検出がどのようなものかをより深く理解したところで、それをサポートする最も広く使用されているVision AIモデルのいくつかを見てみましょう。
回転または傾斜したオブジェクトを検出するために、いくつかの高度なコンピュータビジョンモデルが開発されています。中でも、Ultralytics YOLOモデルは、その信頼性と効率的なOBB検出機能で特に知られています。
Ultralytics YOLOv5のような以前のバージョンは、標準的なオブジェクト検出用に設計されていました。 Ultralytics YOLOv8や最近のYOLO11などの後のイテレーションでは、OBB検出のネイティブサポートが導入されました。特にYOLO11は、速度を損なうことなく最先端の精度を提供し、リアルタイムアプリケーションに影響を与えるオプションとなっています。
YOLO11n-obbなどの事前学習済みYOLO11 OBBモデルは、DOTAv1などのデータセットでトレーニングされています。DOTAv1は、飛行機、船、テニスコートなど、さまざまな角度と方向で表示されるさまざまなオブジェクトクラスで注釈が付けられた航空写真で構成されています。
また、これらのモデルは、ナノ(n-obb)から特大(x-obb)まで、5つの異なるサイズで利用でき、さまざまなパフォーマンスニーズに対応します。この多様性により、都市インフラの監視や機械の検査から、スキャンされたドキュメント内の歪んだテキストの読み取りまで、さまざまな業界に適用できます。
多くの現実の状況では、検出する必要があるオブジェクトが、標準的なトレーニングデータセット内のオブジェクトとは全く異なる場合があります。例えば、生産ライン上の工具、製品パッケージ、回路基板上の部品などは、回転していたり、不規則に配置されていたり、形状が異なっていたりする可能性があります。
これらのカスタムオブジェクトを正確に検出するには、特に向きが重要な場合、独自の画像とラベルを使用してYOLO11のようなモデルをトレーニングすることが重要です。このプロセスはカスタムトレーニングと呼ばれます。
OBB検出のためのYOLO11のトレーニングのステップごとのプロセスを詳しく見ていきましょう。
中心から外れたり、傾いたりしている物体は、実際のシナリオではごく一般的です。OBB検出がこれらの物体を正確に検出することで、実際に違いを生み出すいくつかの例を見ていきましょう。
OBB検出は、精度を向上させることで、医用画像解析をさらに一歩進めることができます。医用画像には、腫瘍、臓器、骨などの解剖学的構造が含まれていることがよくあります。これらの構造は、不規則な形状とさまざまな方向で現れることがよくあります。OBBはオブジェクトの角度に合わせて回転できるため、より正確なローカリゼーションと測定が可能になり、診断と治療計画に不可欠です。
このアプローチは、骨の骨折のX線画像を分析する場合に特に効果的です。骨の位置と整列が重要な要素となるからです。たとえば、OBB検出は、小児肘のX線写真の分析に使用されています。骨の向きに合わせて調整することで、検出精度が向上しました。
航空監視は、公共の安全、環境モニタリング、都市計画などの分野で不可欠なツールです。ドローンや衛星によって撮影された画像は、船舶、車両、建物などのオブジェクトを特定するのに役立ちます。ただし、これらの画像では、オブジェクトが小さく、通常とは異なる角度で表示されることが多く、正確な検出がより困難になります。
OBB検出は、各オブジェクトの角度に合わせてバウンディングボックスを傾けることで、これを解決します。これにより、オブジェクトのサイズと方向の測定がより正確になり、都市計画、防衛、災害対応、環境モニタリングなどの分野でより適切な意思決定をサポートします。
OBB検出の興味深い例は、海上監視における船舶追跡です。衛星画像では、天候、照明、または動きにより、船舶がさまざまな角度やサイズで捉えられることがよくあります。OBBはこれらの変化に適応できるため、特に小型または部分的に隠れた船舶の検出が向上します。
収穫後の作物の選別は、品質を保証するために梱包して市場に出荷する前の重要なステップです。多くのシステムはリンゴやオレンジのような丸い果物には適していますが、ニンジンやマコモダケのような細長い作物は、取り扱いがはるかに難しい場合があります。これらの作物は形状が様々で、様々な角度で配置されることが多いため、正確に検出して選別することが困難です。
これに対処するために、研究者たちは、傾いた作物や重なり合った作物であっても、より正確に識別して評価するために、向きのあるバウンディングボックス(OBB)検出を使用するシステムを開発しました。このシステムは、1つの画像で複数の作物を検出し、リアルタイムで品質と位置を評価できます。
OBB検出を使用する利点をいくつかご紹介します。
複雑なシーンでの検出精度向上に役立つにもかかわらず、OBB検出には考慮すべきいくつかの制限事項があります。
傾斜バウンディングボックス検出により、コンピュータビジョンソリューションは、完全に真っ直ぐまたは整列していないオブジェクトをより簡単に認識できます。オブジェクトの位置と向きの両方をキャプチャすることにより、OBB検出は、医療画像の走査、農地の監視、または衛星写真の分析などの実際のユースケース全体で精度を高めます。
YOLO11のようなモデルがOBB検出をよりアクセスしやすくすることで、多くの業界にとって実用的な選択肢になりつつあります。傾斜したオブジェクト、重なり合ったオブジェクト、または奇妙な形のオブジェクトを扱っている場合でも、OBB検出は、標準的な方法では見落としがちな、より高度な精度を追加します。
AIにご興味がありますか?当社のGitHubリポジトリを探索し、コミュニティと繋がり、ライセンスオプションを確認して、コンピュータビジョンプロジェクトを始めましょう。ソリューションページで、小売業におけるAIや物流業界におけるコンピュータビジョンなどのイノベーションについて詳しくご覧ください。