YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
ビジョンAI

Mask R-CNNとは何か、そしてその仕組みは?

Mask R-CNNを使用して、さまざまなセクターのさまざまなアプリケーションのために画像や動画内の物体を正確にセグメンテーションする方法を学びます。

ABAbirami Vina
4 min read
Mask R-CNNによるインスタンスセグメンテーション

AIの導入が進むにつれ、倉庫内のロボット、混雑した道路を安全に走行する自動運転車、農作物を点検するドローン、工場で製品を検査するAIシステムといったイノベーションが一般的になっています。こうしたイノベーションを推進する主要な技術がコンピュータビジョンです。これはAIの一分野であり、機械が視覚データを理解し解釈することを可能にします。

例えば、物体検出は、バウンディングボックスを使用して画像内の物体を識別および特定するコンピュータビジョンのタスクです。バウンディングボックスは有用な情報を提供しますが、物体の位置を大まかに推定するだけで、その正確な形状や境界を捉えることはできません。このため、精密な識別を必要とするアプリケーションでは効果が低くなります。

この問題を解決するために、研究者は物体の正確な輪郭を捉え、ピクセルレベルの詳細情報を提供することで、より正確な検出と分析を可能にするセグメンテーションモデルを開発しました。

Mask R-CNNはそのようなモデルの1つです。2017年にFacebook AI Research (FAIR) によって導入されたこのモデルは、R-CNN、Fast R-CNN、Faster R-CNNといった以前のモデルを基盤としています。コンピュータビジョンの歴史における重要なマイルストーンとして、Mask R-CNNはUltralytics YOLO11のような、より高度なモデルへの道を切り開いてきました。

本記事では、Mask R-CNNとは何か、どのように機能するのか、そのアプリケーション、そしてその後どのような改善がなされ、YOLO11へとつながったのかを解説します。

Link to this sectionMask R-CNNの概要#

Mask R-CNN(Mask Region-based Convolutional Neural Networkの略)は、物体検出やインスタンスセグメンテーションといったコンピュータビジョンタスクのために設計されたディープラーニングモデルです。

インスタンスセグメンテーションは、従来の物体検出の枠を超え、画像内の物体を識別するだけでなく、それぞれの輪郭を正確に描き出します。検出されたすべての物体に固有のラベルを割り当て、ピクセルレベルでその正確な形状を捉えます。この詳細なアプローチにより、重なり合った物体を明確に区別し、複雑な形状を正確に処理することが可能になります。

Mask R-CNNはFaster R-CNNを基盤としていますが、Faster R-CNNは物体を検出してラベル付けはするものの、その正確な形状までは定義しません。Mask R-CNNはこれを改良し、各物体を構成する正確なピクセルを特定することで、より詳細で正確な画像分析を可能にしました。

物体検出とインスタンスセグメンテーションの比較

図1. 物体検出とインスタンスセグメンテーションの比較。

Link to this sectionMask R-CNNのアーキテクチャと機能の仕組み#

Mask R-CNNは、物体を正確に検出・セグメント化するために段階的なアプローチをとります。まず、ディープニューラルネットワーク(データから学習する多層モデル)を使用して主要な特徴を抽出し、次にリージョンプロポーザルネットワーク(可能性の高い物体領域を提案するコンポーネント)で潜在的な物体の領域を特定します。最後に、セグメンテーションマスク(物体の正確な輪郭)を作成してこれらの領域を調整し、各物体の正確な形状を捉えます。

次に、Mask R-CNNがどのように機能するのか、各ステップを詳しく見ていきます。

Mask R-CNNアーキテクチャの概要

図2. Mask R-CNNのアーキテクチャ概要(出典: researchgate.net)。

Link to this section特徴抽出から始める#

Mask R-CNNのアーキテクチャの最初のステップは、モデルが画像の内容を理解できるように、画像を主要なパーツに分解することです。人間が写真を見たときに、形、色、エッジといった詳細を自然に認識するようなものだと考えてください。モデルは「バックボーン」(多くの場合ResNet-50やResNet-101)と呼ばれるディープニューラルネットワークを使用して、これと同様の処理を行います。このバックボーンは目のような役割を果たし、画像をスキャンして重要な詳細を拾い上げます。

画像内の物体は非常に小さいこともあれば非常に大きいこともあるため、Mask R-CNNはFeature Pyramid Networkを使用します。これは、モデルが細かい詳細と全体像の両方を見られるようにする拡大鏡のような役割を果たし、あらゆるサイズの物体を見逃さないようにします。

これらの重要な特徴が抽出されると、モデルは画像内の潜在的な物体の特定に進み、詳細な分析の準備を整えます。

Link to this section画像内の物体が存在する可能性のある領域の提案#

画像の特徴が処理された後、リージョンプロポーザルネットワークが引き継ぎます。モデルのこの部分は、画像を見て、物体が含まれている可能性が高い領域を提案します。

このネットワークは、アンカーと呼ばれる複数の可能な物体位置を生成することでこれを行います。その後、アンカーを評価し、最も有望なものを詳細分析用に選択します。このようにして、モデルは画像内のあらゆる点をチェックするのではなく、最も関心の高い領域のみに集中します。

Region Proposal Networkの図

図3. リージョンプロポーザルネットワークの例。

Link to this section抽出された特徴の強化#

主要な領域が特定されたら、次のステップはこれらの領域から抽出された詳細を洗練させることです。以前のモデルではROI Pooling (Region of Interest Pooling) と呼ばれる手法を使用して各領域から特徴を取得していましたが、この手法では領域をリサイズする際にわずかな位置ずれが生じることがあり、特に小さな物体や重なり合った物体に対しては効果が低下していました。

Mask R-CNNは、ROI Align (Region of Interest Align) と呼ばれる手法を使用することでこれを改善しています。ROI Poolingのように座標を丸めるのではなく、ROI Alignは双一次補間を使用してピクセル値をより正確に推定します。双一次補間は、最も近い4つの近傍値の平均をとることで新しいピクセル値を計算する手法であり、より滑らかな遷移を作成します。これにより、特徴が元の画像と正確に整合し、より正確な物体検出とセグメンテーションが可能になります。

例えば、サッカーの試合で2人の選手が近くに立っている場合、バウンディングボックスが重なるため混同される可能性があります。ROI Alignは、それぞれの形状を明確に保つことで、それらを分離する助けとなります。

Mask R-CNNによるROI Alignの活用を示す図

図4 Mask R-CNNはROI Alignを使用します。

Link to this section物体の分類とマスクの予測#

ROI Alignが画像を処理した後、次のステップは物体を分類し、その位置を微調整することです。モデルは抽出された各領域を見て、何が含まれているかを判断します。異なるカテゴリに確率スコアを割り当て、最も適したものを選びます。

同時に、バウンディングボックスを調整して物体に適合させます。初期のボックスは理想的な位置ではない可能性があるため、これにより各ボックスが検出された物体をしっかりと囲むようになり、精度が向上します。

最後に、Mask R-CNNは追加のステップとして、各物体のセグメンテーションマスクを並行して生成します。

Link to this sectionMask R-CNNとそのリアルタイムアプリケーション#

このモデルが登場した当初、AIコミュニティから大きな期待を寄せられ、すぐに様々なアプリケーションで使用されるようになりました。リアルタイムで物体を検出・セグメント化する能力は、さまざまな業界におけるゲームチェンジャーとなりました。

例えば、野生での絶滅危惧種の追跡は困難なタスクです。多くの種は密集した森の中を移動するため、保護活動家がそれらを追跡するのは困難です。従来の方法ではカメラトラップ、ドローン、衛星画像を使用してきましたが、これらすべてのデータを手作業で整理するには時間がかかります。誤認や見落としがあると、保護活動が遅れる可能性があります。

トラの縞模様、キリンの斑点、ゾウの耳の形といった独自の特徴を認識することで、Mask R-CNNは画像や動画内の動物をより高い精度で検出し、セグメント化できます。動物が木々に隠れていたり、近くに立っていたりする場合でも、モデルはそれらを分離してそれぞれを個別に識別できるため、野生生物のモニタリングがより高速かつ信頼性の高いものになります。

Mask R-CNNを用いた動物の検出とセグメンテーション

図5. Mask R-CNNを使用して動物を検出・セグメント化する様子。

Link to this sectionMask R-CNNの制限#

物体検出とセグメンテーションにおける歴史的な重要性にもかかわらず、Mask R-CNNにはいくつかの大きな欠点もあります。Mask R-CNNに関連する課題を以下に挙げます。

  • 高い計算需要: 強力なGPUに依存しているため、実行コストが高く、大量のデータを処理する際には低速になる可能性があります。
  • 処理速度が遅い: 多段階のプロセスを必要とするため、YOLOのような高速なリアルタイムモデルと比較すると遅く、時間に敏感なタスクには適さない場合があります。
  • 高品質なデータへの依存: 明確で適切にラベル付けされた画像で最も優れたパフォーマンスを発揮します。ぼやけた画像や照明条件の悪い画像では、精度が著しく低下する可能性があります。
  • 複雑な実装: 多段階のアーキテクチャは、特に大規模なデータセットや限られたリソースを扱う場合、セットアップや最適化が難しいことがあります。

Link to this sectionMask R-CNNからUltralytics YOLO11へ#

Mask R-CNNはセグメンテーションタスクには優れていましたが、多くの業界ではスピードとリアルタイムパフォーマンスを優先してコンピュータビジョンを導入したいと考えていました。この要求から、研究者は物体を一度のパスで検出するワンステージモデルを開発し、効率を大幅に向上させました。

Mask R-CNNの多段階プロセスとは異なり、YOLO (You Only Look Once) のようなワンステージコンピュータビジョンモデルは、リアルタイムのコンピュータビジョンのタスクに焦点を当てています。検出とセグメンテーションを別々に処理するのではなく、YOLOモデルは一度に画像を分析できます。そのため、自動運転、ヘルスケア、製造、ロボット工学など、迅速な意思決定が不可欠なアプリケーションに最適です。

特にYOLO11は、高速かつ正確であることで、これをさらに一歩進めています。YOLOv8mよりもパラメータを22%削減しながらも、COCOデータセットでより高い平均適合率(mAP)を達成しており、より正確に物体を検出できることを意味します。処理速度が向上しているため、1ミリ秒が重要となるリアルタイムアプリケーションに最適な選択肢です。

他のモデルと比較したYOLO11のパフォーマンス

図6 他のモデルと比較したYOLO11のパフォーマンス。

Link to this section重要なポイント#

コンピュータビジョンの歴史を振り返ると、Mask R-CNNは物体検出とセグメンテーションにおける大きなブレークスルーとして認められています。詳細な多段階プロセスのおかげで、複雑な環境下でも非常に正確な結果を提供します。

しかし、同じプロセスが原因で、YOLOのようなリアルタイムモデルと比較すると速度が低下します。スピードと効率へのニーズが高まる中、多くのアプリケーションでは、高速で正確な物体検出を提供するUltralytics YOLO11のようなワンステージモデルが採用されています。コンピュータビジョンの進化を理解する上でMask R-CNNは重要ですが、リアルタイムソリューションへの傾向は、より高速で効率的なコンピュータビジョンソリューションに対する需要の高まりを浮き彫りにしています。

成長を続ける私たちのコミュニティに参加しましょう!AIの詳細については、私たちのGitHubリポジトリを探索してください。独自のコンピュータビジョンプロジェクトを開始する準備はできましたか?私たちのライセンスオプションをご覧ください。私たちのソリューションページにアクセスして、農業におけるAIヘルスケアにおけるビジョンAIを発見してください!

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう