ヨロビジョン深圳
深セン
今すぐ参加

Mask R-CNNとは?その仕組みについて

Abirami Vina

4分で読めます

2025年3月21日

Mask R-CNNを使用して、画像や動画内のオブジェクトを正確にセグメント化し、さまざまな分野の多様なアプリケーションに活用する方法について解説します。

倉庫におけるロボット、交通量の多い道路を安全に走行する自動運転車、作物をチェックするドローン、工場で製品を検査するAIシステムなどのイノベーションは、AIの導入が進むにつれてますます一般的になっています。これらのイノベーションを推進する重要な技術がコンピュータビジョンです。これは、機械が視覚データを理解し、解釈することを可能にするAIの一分野です。

例えば、物体検出は、バウンディングボックスを使用して画像内の物体を識別し、位置を特定するコンピュータビジョンのタスクです。バウンディングボックスは役立つ情報を提供しますが、物体の位置を大まかに推定するだけで、正確な形状や境界を捉えることはできません。そのため、正確な識別が必要なアプリケーションでは効果が低くなります。

この問題を解決するために、研究者たちは物体の正確な輪郭を捉え、より正確な検出と分析のためにピクセルレベルの詳細を提供するセグメンテーションモデルを開発しました。

Mask R-CNNは、これらのモデルの1つです。2017年にFacebook AI Research(FAIR)によって発表され、R-CNN、Fast R-CNN、Faster R-CNNなどの以前のモデルを基に構築されています。コンピュータビジョンの歴史における重要なマイルストーンとして、Mask R-CNNはUltralytics YOLO11のような、より高度なモデルへの道を開きました。

この記事では、Mask R-CNNとは何か、その仕組み、アプリケーション、そしてYOLO11に至るまでの改善点について解説します。

Mask R-CNNの概要

Mask R-CNN(Mask Region-based Convolutional Neural Networkの略)は、物体検出やインスタンスセグメンテーションなどのコンピュータビジョンタスク向けに設計された深層学習モデルです。 

インスタンスセグメンテーションは、画像内の物体を識別するだけでなく、各物体を正確にアウトライン化することで、従来の物体検出を超えています。検出されたすべての物体に一意のラベルを割り当て、ピクセルレベルで正確な形状を捉えます。この詳細なアプローチにより、重なり合う物体を明確に区別し、複雑な形状を正確に処理することが可能になります。

Mask R-CNNは、物体を検出してラベル付けしますが、正確な形状を定義しないFaster R-CNNを基に構築されています。Mask R-CNNは、各物体を構成する正確なピクセルを識別することでこれを改善し、より詳細で正確な画像分析を可能にします。

図1. 物体検出とインスタンスセグメンテーションの比較。

Mask R-CNNのアーキテクチャとその仕組み

Mask R-CNNは、物体を正確に検出およびセグメント化するために、段階的なアプローチを採用しています。まず、深層ニューラルネットワーク(データから学習する多層モデル)を使用して主要な特徴を抽出し、次に領域提案ネットワーク(可能性の高い物体の領域を提案するコンポーネント)を使用して潜在的な物体の領域を識別し、最後に各物体の正確な形状を捉える詳細なセグメンテーションマスク(物体の正確なアウトライン)を作成して、これらの領域を洗練します。

次に、Mask R-CNNの仕組みをより深く理解するために、各ステップを順を追って説明します。

図2.マスクR-CNNのアーキテクチャの概要(出典:researchgate.net)。

特徴抽出から

Mask R-CNNのアーキテクチャにおける最初のステップは、モデルが画像の内容を理解できるように、画像を主要な要素に分解することです。これは、写真を見たときに、形状、色、エッジなどの詳細に自然に気づくのと同じです。モデルは、「バックボーン」(通常はResNet-50またはResNet-101)と呼ばれる深層ニューラルネットワークを使用して同様の処理を行います。これは、画像全体をスキャンして主要な詳細を拾い上げる目のような役割を果たします。

画像内の物体は非常に小さい場合もあれば、非常に大きい場合もあるため、Mask R-CNNはFeature Pyramid Networkを使用します。これは、モデルが細部と全体像の両方を確認できるさまざまな拡大鏡を持っているようなもので、あらゆるサイズの物体が確実に認識されるようにします。

重要な特徴が抽出されると、モデルは画像中の潜在的なオブジェクトの特定に進み、さらなる分析の準備を整えます。

オブジェクトが存在する可能性のある画像内の領域を提案します。

画像からキーとなる特徴が処理された後、Region Proposal Network(領域提案ネットワーク)が処理を引き継ぎます。モデルのこの部分は画像を見て、オブジェクトが含まれている可能性の高い領域を提案します。

これは、アンカーと呼ばれる複数のオブジェクトの候補位置を生成することによって行われます。次に、ネットワークはこれらのアンカーを評価し、さらなる分析のために最も有望なものを選択します。このようにして、モデルは画像内のすべての場所をチェックするのではなく、最も関心のある可能性の高い領域のみに焦点を当てます。

図3. Region Proposal Networkの例。

抽出された特徴の強化 

キーとなる領域が特定されたら、次のステップは、これらの領域から抽出された詳細を洗練することです。以前のモデルでは、ROI Pooling(Region of Interest Pooling)と呼ばれる手法を使用して各領域から特徴を取得していましたが、この手法では、領域のサイズを変更する際にわずかなずれが生じることがあり、特に小さいオブジェクトや重複するオブジェクトの場合には効果が低下していました。

Mask R-CNNは、ROI Align(Region of Interest Align)と呼ばれる手法を使用することで、これを改善しています。ROI Poolingのように座標を丸める代わりに、ROI Alignは双線形補間を使用してピクセル値をより正確に推定します。双線形補間は、4つの最も近い隣接ピクセルの値を平均して新しいピクセル値を計算し、より滑らかなトランジションを作成する方法です。これにより、特徴が元の画像と適切に整列された状態に保たれ、より正確なオブジェクト検出とセグメンテーションが実現します。

たとえば、サッカーの試合では、2人のプレーヤーが互いに接近して立っている場合、それらのバウンディングボックスが重複しているため、互いに間違われる可能性があります。ROI Alignは、それらの形状を明確に保つことによって、それらを分離するのに役立ちます。 

図4。Mask R-CNNはROI Alignを使用します。

オブジェクトの分類とマスクの予測

ROI Alignが画像を処理すると、次のステップはオブジェクトを分類し、それらの位置を微調整することです。モデルは、抽出された各領域を見て、それがどのオブジェクトを含んでいるかを判断します。異なるカテゴリに確率スコアを割り当て、最適な一致を選択します。

同時に、バウンディングボックスを調整してオブジェクトにより適合させます。初期のボックスは理想的な位置に配置されていない可能性があるため、各ボックスが検出されたオブジェクトをしっかりと囲むようにすることで、精度が向上します。

最後に、Mask R-CNNは追加のステップとして、各オブジェクトに対して詳細なセグメンテーションマスクを並行して生成します。

Mask R-CNNとそのリアルタイムアプリケーション

このモデルが登場したとき、AIコミュニティから多くの興奮をもって迎えられ、すぐにさまざまなアプリケーションで使用されるようになりました。リアルタイムでオブジェクトを検出およびセグメント化する能力により、さまざまな業界でゲームチェンジャーとなりました。

たとえば、野生の絶滅危惧種を追跡することは困難な作業です。多くの種が密集した森林を移動するため、保護活動家がそれらを追跡し続けることは困難です。従来の方法では、カメラトラップ、ドローン、衛星画像を使用しますが、このすべてのデータを手作業で分類するには時間がかかります。誤認や見逃しは、保護活動の遅延につながる可能性があります。

Mask R-CNNは、トラの縞模様、キリンの斑点、ゾウの耳の形などの独自の特徴を認識することで、画像やビデオ内の動物をより高い精度で検出およびセグメント化できます。動物が木に部分的に隠れていたり、互いに接近して立っていたりする場合でも、モデルはそれらを分離して個別に識別できるため、野生生物の監視がより迅速かつ信頼性が高まります。

図5. Mask R-CNNを使用した動物の検出とセグメント化。

Mask R-CNNの限界

物体検出とセグメンテーションにおいて歴史的に重要なMask R-CNNですが、いくつかの重要な欠点もあります。以下に、Mask R-CNNに関連する課題をいくつか示します。

  • 高い計算需要:強力なGPUに依存するため、実行コストが高くなり、大量のデータを処理する際に速度が低下する可能性があります。

  • 処理速度の遅さ:その多段階プロセスにより、YOLOのような高速なリアルタイムモデルと比較して速度が遅くなります。そのため、時間的制約の厳しいタスクには理想的ではないかもしれません。

  • 高品質のデータへの依存:モデルは、鮮明で適切にラベル付けされた画像で最高のパフォーマンスを発揮します。ぼやけていたり、照明が不十分な画像は、その精度を大幅に低下させる可能性があります。
  • 複雑な実装:多段階アーキテクチャは、特に大規模なデータセットや限られたリソースを扱う場合に、セットアップと最適化が難しい場合があります。

Mask R-CNNからUltralytics YOLO11へ

Mask R-CNNはセグメンテーションタスクに最適でしたが、多くの業界は速度とリアルタイムパフォーマンスを優先しながらコンピュータビジョンを採用しようとしていました。この要件により、研究者は単一のパスでオブジェクトを検出するワンステージモデルを開発し、効率を大幅に向上させました。

Mask R-CNNの多段階プロセスとは異なり、YOLO(You Only Look Once)のようなワンステージのコンピュータビジョンモデルは、リアルタイムのコンピュータビジョンタスクに焦点を当てています。検出とセグメンテーションを別々に処理する代わりに、YOLOモデルは画像を一度に分析できます。これにより、自律走行、ヘルスケア、製造、ロボット工学など、迅速な意思決定が重要なアプリケーションに最適です。

特に、YOLO11は、高速かつ高精度であるという点で、さらに一歩進んでいます。YOLOv8mよりも22%少ないパラメータを使用していますが、COCOデータセットでより高い平均適合率(mAP)を達成しており、より正確にオブジェクトを検出できることを意味します。処理速度が向上しているため、1ミリ秒が重要なリアルタイムアプリケーションに適しています。

図6. 他のモデルと比較したYOLO11の性能。

主なポイント

コンピュータビジョンの歴史を振り返ると、Mask R-CNNは、オブジェクト検出とセグメンテーションにおける大きなブレークスルーとして認識されています。詳細な多段階プロセスのおかげで、複雑な設定でも非常に正確な結果を提供します。 

ただし、この同じプロセスにより、YOLOのようなリアルタイムモデルと比較して処理速度が遅くなります。スピードと効率のニーズが高まるにつれて、多くのアプリケーションでは、高速かつ正確なオブジェクト検出を提供するUltralytics YOLO11のようなシングルステージモデルが使用されるようになりました。Mask R-CNNは、コンピュータビジョンの進化を理解する上で重要ですが、リアルタイムソリューションへのトレンドは、より迅速で効率的なコンピュータビジョンソリューションに対する需要の高まりを浮き彫りにしています。

成長を続けるコミュニティに参加しませんか? AIについてさらに学ぶには、GitHubリポジトリをご覧ください。独自のコンピュータビジョンプロジェクトを開始する準備はできましたか? ライセンスオプションをご確認ください。ソリューションページでは、農業におけるAIヘルスケアにおけるVision AIをご紹介しています。 

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました