什么是 Mask R-CNN 以及它如何工作?
了解 Mask R-CNN 如何用于精准分割图像和视频中的对象,以满足跨不同行业的各种应用需求。
随着 AI 的普及,仓库中的机器人、在繁忙街道上安全行驶的自动驾驶汽车、巡视农作物的无人机以及工厂中检测产品的 AI 系统等创新变得越来越普遍。推动这些创新的关键技术是 computer vision,这是 AI 的一个分支,使机器能够理解和解释视觉数据。
For example, object detection is a computer vision task that helps identify and locate objects in images using bounding boxes. While bounding boxes offer helpful information, they only provide a rough estimate of an object’s position and can’t capture its exact shape or boundaries. This makes them less effective in applications that require precise identification.
为了解决这个问题,研究人员开发了分割模型,能够捕捉对象的精确轮廓,提供像素级的细节,从而实现更准确的检测和分析。
Mask R-CNN 就是其中一种模型。它由 Facebook AI Research (FAIR) 在 2017 年推出,建立在 R-CNN、Fast R-CNN 和 Faster R-CNN 等早期模型的基础上。作为计算机视觉历史上的一个重要里程碑,Mask R-CNN 为更先进的模型(如 Ultralytics YOLO11)铺平了道路。
在本文中,我们将探讨 Mask R-CNN 是什么、它的工作原理、应用场景,以及它之后出现的改进,最终引向 YOLO11。
Link to this sectionMask R-CNN 概述#
Mask R-CNN(Mask Region-based Convolutional Neural Network)是一种深度学习模型,专为 computer vision tasks(如目标检测和实例分割)而设计。
实例分割不仅能识别图像中的对象,还能准确勾勒出每一个对象,从而超越了传统的目标检测。它为每个检测到的对象分配一个唯一的标签,并在像素级别捕捉其确切形状。这种详细的方法使得清晰区分重叠对象并准确处理复杂形状成为可能。
Mask R-CNN 在 Faster R-CNN 的基础上进行了构建,后者虽然能检测和标记对象,但无法定义它们的精确形状。Mask R-CNN 对此进行了改进,能够识别构成每个对象的精确像素,从而实现更详细和更准确的图像分析。

图 1. 目标检测与实例分割的对比。
Link to this sectionMask R-CNN 的架构及其工作原理概览#
Mask R-CNN 采用分步方法来准确检测和分割对象。它首先使用深度神经网络(一种从数据中学习的多层模型)提取关键特征,然后通过区域建议网络(一个建议可能对象区域的组件)识别潜在的对象区域,最后通过创建详细的分割掩码(对象的精确轮廓)来细化这些区域,从而捕捉每个对象的确切形状。
接下来,我们将逐步了解 Mask R-CNN 的工作原理。

图 2. Mask R-CNN 架构概述(来源:researchgate.net)。
Link to this section从特征提取开始#
Mask R-CNN 架构的第一步是将图像分解为关键部分,以便模型理解其内容。这就像你观察一张照片时自然注意到形状、颜色和边缘等细节一样。该模型使用一种称为“骨干网络”(通常是 ResNet-50 或 ResNet-101)的深度神经网络来执行类似的操作,它就像模型的眼睛,扫描图像并捕捉关键细节。
由于图像中的对象可能非常小或非常大,Mask R-CNN 使用了特征金字塔网络(Feature Pyramid Network)。这就像拥有不同的放大镜,让模型既能看到细微的细节,也能看到大局,确保所有尺寸的对象都能被注意到。
一旦这些重要的 features are extracted,模型就会继续定位图像中的潜在对象,为进一步分析做好准备。
Link to this section建议图像中潜在的对象区域#
在图像处理完关键特征后,区域建议网络(Region Proposal Network)就会接管工作。该模型部分会观察图像并建议可能包含对象的区域。
它通过生成多个可能的对象位置(称为 anchors)来实现这一点。然后,网络会对这些 anchor 进行评估并选择最有前景的区域进行深入分析。这样,模型只会关注最可能相关的区域,而无需检查图像中的每一个点。

图 3. 区域建议网络示例。
Link to this section增强提取的特征#
识别出关键区域后,下一步是细化从这些区域提取的细节。早期的模型使用一种称为 ROI Pooling(感兴趣区域池化)的方法从每个区域提取特征,但这种技术在调整区域大小时有时会导致轻微的错位,使其效果不佳——尤其是对于较小或重叠的对象。
Mask R-CNN 通过使用称为 ROI Align(感兴趣区域对齐)的技术对此进行了改进。与 ROI Pooling 不同,ROI Align 不会舍入坐标,而是使用双线性插值来更精确地估计像素值。双线性插值是一种通过平均其四个最近邻居的值来计算新像素值的方法,这会创造更平滑的过渡。这样可以使特征与原始图像正确对齐,从而实现更准确的对象检测和分割。
例如,在一场足球比赛中,两名站得很近的球员可能会因为它们的 bounding boxes 重叠而被误认为是同一个人。ROI Align 通过保持它们的形状清晰来帮助区分它们。

图 4。Mask R-CNN 使用了 ROI Align。
Link to this section对象分类与掩码预测#
ROI Align 处理图像后,下一步是对对象进行分类并微调它们的位置。模型查看每个提取的区域,并判断它包含什么对象。它为不同的类别分配概率分数,并选出最佳匹配项。
同时,它还会调整 bounding boxes 以更好地拟合对象。最初的框可能放置得不理想,因此这有助于通过确保每个框紧密环绕检测到的对象来提高准确性。
最后,Mask R-CNN 采取了额外的步骤:它为每个对象并行生成详细的 segmentation mask。
Link to this sectionMask R-CNN 及其实时应用#
当该模型问世时,它在 AI 社区引起了巨大反响,并很快被应用于各种场景。其实时检测和分割对象的能力使其成为跨多个行业的变革者。
例如,tracking endangered animals 是一项艰巨的任务。许多物种在茂密的森林中移动,这使得保护工作者很难追踪它们。传统方法使用红外触发相机、无人机和卫星图像,但手工筛选所有这些数据非常耗时。识别错误和遗漏观察可能会拖慢保护工作的进度。
通过识别老虎条纹、长颈鹿斑点或大象耳朵形状等独特特征,Mask R-CNN 可以更准确地检测和分割图像和视频中的动物。即使动物被树木部分遮挡或站得很近,该模型也能将它们分开并分别识别,从而使野生动物监测更快、更可靠。

图 5. 使用 Mask R-CNN 检测和分割动物。
Link to this sectionMask R-CNN 的局限性#
尽管 Mask R-CNN 在对象检测和分割领域具有历史意义,但它也存在一些主要缺点。以下是与 Mask R-CNN 相关的一些挑战:
- High computational demand:它依赖于强大的 GPU,这可能导致运行成本高昂,且在处理大量数据时速度变慢。
- 处理速度较慢:其多阶段处理流程使其与 YOLO 等更快的实时模型相比表现较慢,这对于时间敏感的任务来说可能并不理想。
- 对高质量数据的依赖:该模型在清晰、标注良好的图像上表现最佳。模糊或光线不足的图像会显著降低其准确性。
- 实现复杂度高:多阶段架构可能难以设置和优化,特别是在处理大型数据集或资源有限的情况下。
Link to this section从 Mask R-CNN 到 Ultralytics YOLO11#
Mask R-CNN 在分割任务上非常出色,但许多行业在采用计算机视觉的同时,更看重速度和实时性能。这一要求促使研究人员开发出单阶段模型,只需一次遍历即可检测对象,极大地提高了效率。
与 Mask R-CNN 的多步过程不同,像 YOLO(You Only Look Once)这样的单阶段 computer vision models 专注于实时计算机视觉任务。YOLO 模型无需分别处理检测和分割,即可在一次遍历中分析图像。这使其成为自动驾驶、医疗保健、制造业和机器人技术等快速决策至关重要的应用的理想选择。
特别是 YOLO11 更进一步,兼顾了速度和准确性。与 YOLOv8m 相比,它使用的参数减少了 22%,但在 COCO 数据集上仍达到了更高的平均精度均值(mAP),这意味着它能更精确地检测对象。其提升的处理速度使其成为每一毫秒都很重要的实时应用的良好选择。

图 6。YOLO11 与其他模型的性能对比。
Link to this section关键要点#
回顾计算机视觉的历史,Mask R-CNN 被公认为目标检测和分割领域的重大突破。得益于其精细的多步处理流程,即使在复杂的环境中,它也能提供非常精确的结果。
然而,正是这一流程使其与 YOLO 等实时模型相比速度较慢。随着对速度和效率需求的增长,许多应用现在倾向于使用像 Ultralytics YOLO11 这样的单阶段模型,它们提供快速且准确的目标检测。虽然 Mask R-CNN 对于理解计算机视觉的演变至关重要,但向实时解决方案的发展趋势凸显了市场对更快捷、更高效计算机视觉方案的日益增长的需求。
加入我们日益壮大的 社区!探索我们的 GitHub 存储库 以了解更多关于 AI 的信息。准备好开始你自己的计算机视觉项目了吗?查看我们的 许可选项。通过访问我们的解决方案页面,探索 农业 AI 和 医疗保健视觉 AI!






