物体検出は、自律走行、監視、医療用画像処理などの用途において、画像やビデオ内の物体を認識し、位置を特定することができるコンピュータ・ビジョン・タスクである。Viola-Jones検出器やHOG(Histogram of Oriented Gradients)とSVM(Histogram of Oriented Gradients with Support Vector Machines)のような初期の物体検出法は、手作りの特徴とスライディングウィンドウに依存していました。これらの手法は、様々な形や大きさの物体が複数存在する複雑なシーンにおいて、物体を正確に検出することに苦労することが多かった。
領域ベースの畳み込みニューラルネットワーク(R-CNN)は、物体検出への取り組み方を変えた。これはコンピュータビジョンの歴史における重要なマイルストーンである。YOLOv8の ようなモデルがどのように生まれたかを理解するには、まずR-CNNのようなモデルを理解する必要がある。
Ross Girshickと彼のチームによって作成されたR-CNNモデルアーキテクチャは、領域プロポーザルを生成し、事前に訓練された畳み込みニューラルネットワーク(CNN)で特徴を抽出し、オブジェクトを分類し、バウンディングボックスを洗練させる。難しいように思えるかもしれないが、この記事が終わるころには、R-CNNがどのように機能し、なぜそれほどインパクトがあるのかを明確に理解できるだろう。それでは見てみよう!
R-CNNモデルの物体検出プロセスは、領域プロポーザルの生成、特徴の抽出、バウンディングボックスを洗練させながら物体を分類する、という3つの主要なステップを含む。それぞれのステップを説明しよう。
最初のステップでは、R-CNNモデルが画像をスキャンし、多数の領域提案を作成する。領域プロポーザルとは、オブジェクトを含む可能性のある領域のことである。選択的探索のような方法は、色、テクスチャ、形状など画像の様々な側面を調べ、異なる部分に分解するために使われる。選択的探索は、画像をより小さな部分に分割することから始まり、次に類似したものをマージしてより大きな関心領域を形成する。このプロセスは、約2,000の領域プロポーザルが生成されるまで続けられる。
これらの領域提案は、物体が存在する可能性のあるすべてのスポットを識別するのに役立つ。次のステップでは、モデルは画像全体ではなく、これらの特定の領域に焦点を当てることで、最も関連性の高い領域を効率的に処理することができる。領域プロポーザルの使用は、徹底的な処理と計算効率のバランスをとる。
R-CNNモデルの物体検出プロセスの次のステップは、領域提案から特徴を抽出することである。各領域提案はCNNが期待する一貫したサイズ(例えば224x224ピクセル)にリサイズされる。リサイズはCNNが各提案を効率的に処理するのに役立つ。ワーピングの前に、各領域プロポーザルのサイズは、より良い特徴抽出のためのより多くの周辺情報を提供するために、領域周辺の16ピクセルの追加コンテキストを含むように、わずかに拡大される。
このCNNは通常、ImageNetのような大規模なデータセットで事前に訓練されている。CNNは各領域を処理して、エッジ、テクスチャ、パターンなどの重要な詳細を捉える高次元特徴ベクトルを抽出する。これらの特徴ベクトルは、領域から重要な情報を凝縮したものである。CNNは生の画像データを、モデルがさらなる分析に使用できる形式に変換する。次の段階で物体を正確に分類し、位置を特定できるかどうかは、視覚情報を意味のあるデータに変換できるかどうかにかかっている。
第3のステップは、これらの領域内のオブジェクトを分類することである。これは、プロポーザル内で見つかった各オブジェクトのカテゴリまたはクラスを決定することを意味する。抽出された特徴ベクトルは機械学習分類器にかけられる。
R-CNNの場合、サポート・ベクトル・マシン(SVM)がこの目的によく使われる。それぞれのSVMは、特徴ベクトルを分析し、特定の領域がそのクラスのインスタンスを含むかどうかを決定することによって、特定のオブジェクトクラスを認識するように訓練される。本質的に、すべてのオブジェクト・カテゴリに対して、その特定のオブジェクトのための各領域提案をチェックする専用の分類器がある。
学習中、分類器には正と負のサンプルでラベル付けされたデータが与えられる:
分類器はこれらのサンプルを区別することを学習する。バウンディング・ボックス回帰は、最初に提案されたバウンディング・ボックスを実際のオブジェクト境界によりよく一致するように調整することで、検出されたオブジェクトの位置とサイズをさらに洗練する。R-CNNモデルは、分類とバウンディングボックス回帰を組み合わせることで、物体を識別し、正確に位置を特定することができる。
分類とバウンディングボックス回帰のステップの後、モデルはしばしば同じオブジェクトに対して複数の重複するバウンディングボックスを生成する。非最大抑制(NMS)は、これらの検出を洗練し、最も正確なボックスを保持するために適用される。このモデルは、NMSを適用することにより、冗長で重複するボックスを排除し、最も信頼できる検出のみを保持します。
NMSは、すべてのバウンディングボックスの信頼度スコア(検出されたオブジェクトが実際に存在する可能性を示す)を評価し、より高いスコアのボックスと大きく重なるものを抑制することで機能する。
NMSのステップの内訳は以下の通り:
まとめると、R-CNNモデルは、領域プロポーザルを生成し、CNNで特徴を抽出し、バウンディングボックス回帰で物体を分類し、位置を絞り込み、非最大抑制(NMS)を使って最も正確な検出だけを維持することで物体を検出する。
R-CNNは、精度と性能を大幅に向上させる新しいアプローチを導入したため、物体検出の歴史において画期的なモデルである。R-CNN以前の物体検出モデルは、速度と精度のバランスに苦労していた。領域プロポーザルを生成し、特徴抽出にCNNを使用するR-CNNの手法は、画像内の物体の正確な位置特定と識別を可能にする。
R-CNNは、Fast R-CNN、Faster R-CNN、Mask R-CNNといったモデルへの道を開き、効率と精度をさらに高めた。ディープラーニングと領域ベースの分析を組み合わせることで、R-CNNはこの分野の新たな基準を打ち立て、実世界のさまざまなアプリケーションの可能性を切り開いた。
R-CNNの興味深い使用例は、医療画像処理である。R-CNNモデルは、MRIやCTスキャンなどの医療スキャンにおいて、脳腫瘍などの異なるタイプの腫瘍を検出・分類するために使用されている。医療用画像診断にR-CNNモデルを使用することで、診断精度が向上し、放射線科医が悪性腫瘍を早期に発見することができる。R-CNNの小さな腫瘍や早期の腫瘍を検出する能力は、がんなどの病気の治療や予後に大きな違いをもたらす可能性がある。
R-CNNモデルは、腫瘍検出だけでなく、他の医療画像処理タスクにも適用できる。例えば、骨折を特定したり、眼球スキャンで網膜疾患を検出したり、肺炎やCOVID-19のような状態について肺画像を分析したりすることができる。医学的な問題にかかわらず、早期発見は患者の転帰改善につながる。R-CNNの精度を異常の特定と局在化に応用することで、医療提供者は医療診断の信頼性とスピードを向上させることができる。物体検出が診断プロセスを合理化することで、患者はタイムリーで正確な治療計画の恩恵を受けることができる。
素晴らしい反面、R-CNNには高い計算量と遅い推論時間といった欠点がある。これらの欠点により、R-CNNモデルはリアルタイムのアプリケーションには不向きである。領域の提案と分類を別々のステップに分けることは、効率の悪い性能につながる可能性がある。
長年にわたり、このような懸念に対処する様々な物体検出モデルが登場してきた。高速R-CNNは、領域提案とCNN特徴抽出を1つのステップに統合し、処理を高速化する。より高速なR-CNNは、提案生成を効率化するために領域提案ネットワーク(RPN)を導入し、マスクR-CNNはより詳細な検出のためにピクセルレベルのセグメンテーションを追加する。
Faster R-CNNと同じ頃、YOLO(You Only Look Once)シリーズがリアルタイムの物体検出を進歩させ始めた。YOLOモデルは、バウンディングボックスとクラス確率を、ネットワークを通過する1回のパスで予測します。例えば、Ultralytics YOLOv8は、多くのコンピュータビジョンタスクのための高度な機能を備え、精度とスピードを向上させています。
RCNNは、ディープラーニングが物体検出をどのように変えることができるかを示し、コンピュータビジョンのゲームを変えた。その成功は、この分野における多くの新しいアイデアに刺激を与えた。Faster R-CNNやYOLOのような新しいモデルがRCNNの欠点を修正するために登場したとはいえ、その貢献は忘れてはならない大きなマイルストーンだ。
研究が進めば、さらに優れた、より高速な物体検出モデルが登場するだろう。こうした進歩は、機械が世界を理解する方法を向上させるだけでなく、多くの産業の進歩にもつながるだろう。物体検出の未来はエキサイティングなものになりそうだ!
AIについてもっと知りたいですか?Ultralyticsコミュニティの一員になりませんか?GitHubリポジトリで最新の人工知能イノベーションをご覧ください。農業や 製造業など様々な分野にまたがる当社のAIソリューションをご覧ください。私たちと一緒に学び、前進しましょう!