什么是实例分割?快速入门指南
加入我们,深入了解实例分割的含义、工作原理、在各种计算机视觉应用中的用途,以及它能带来的影响。

计算机视觉应用在我们的日常生活中正变得越来越普遍,从监控路况的交通摄像头到商店里的自助结账系统。通过使机器能够以类似于人类的方式理解视觉数据,视觉 AI 正在多个行业产生影响。
许多这类应用依赖于目标检测,这是一种计算机视觉任务,旨在为图像中的关键对象绘制边界框。虽然这种方法通常很有效,但某些图像分析解决方案需要更高的精度。
例如,医学影像不仅需要检测肿瘤,准确勾勒出其确切形状也至关重要。同样,在机器人领域,机器需要识别对象的精确轮廓才能正确抓取它。为了应对这些挑战,实例分割提供了一个更精确的解决方案。
实例分割是一种计算机视觉任务,旨在支持那些仅靠目标检测无法满足的用例——它提供了像素级的准确性。像 Ultralytics YOLO11 这样的计算机视觉模型可以轻松地将实例分割应用于图像和视频。

图 1. 使用 YOLO11 进行实例分割的示例。
在本指南中,我们将分解实例分割的工作原理、其应用场景,以及如何针对特定的分割任务对 Ultralytics YOLO11 进行自定义训练。
Link to this section什么是实例分割?#
假设有一张人们站得很近的合影。目标检测可以帮助为每个人绘制边框,但这并不能告诉你他们的确切形状。
实例分割 则不同,它类似于仔细描绘每个人的轮廓,这样即使他们重叠在一起,你也能看到完整的轮廓。它不仅用框标记物体的位置,还能在像素级别识别每个对象的精确形状,从而更容易理解复杂的图像。
结果会生成一个详细的遮罩(mask),填补对象的形状,并精确定位哪些像素属于该对象。这种精度水平在许多需要了解对象确切形状和边界的现实应用中非常有用。

图 2. 展示 YOLO11 对实例分割的支持。
Link to this section实例分割与语义分割#
在探索实例分割时,你可能会遇到语义分割的概念。
这两种技术都能帮助计算机在像素级别理解图像,但它们的目的不同。语义分割根据类别标记每个像素,将相同类型的所有对象归为一类。例如,在一张有多辆汽车的图像中,语义分割会将所有汽车标记为“汽车”,而不会区分具体的车辆。
另一方面,实例分割更进一步,它将每个对象单独识别出来。它为各个实例分配唯一标签,并在它们的形状周围创建精确的遮罩。因此在同一张图像中,实例分割不仅会把一切标记为“汽车”,还会识别并勾勒出每一辆车。
两者之间的主要区别在于,语义分割按类别对对象进行分组,而实例分割则将每个对象识别为一个具有清晰边界的独特实体。选择哪种任务取决于具体的应用——只需知道图像中有什么,还是需要区分各个对象。

图 3. 实例分割与语义分割(分别为右侧和左侧)。
Link to this section主流的实例分割模型#
如今,视觉 AI 社区有各种各样的实例分割模型。有些速度更快,有些准确度更高,还有些更容易使用。
这些选项虽然有用,但也引出了一个问题:针对特定任务,哪一个才是正确的选择?在这些选项中,Ultralytics YOLO 模型因专注于速度和准确性而广受欢迎。
此外,这些模型多年来有了显著的演进。例如,Ultralytics YOLOv5 使用 PyTorch 等框架简化了部署,使得更广泛的用户无需深厚的技术专长即可使用先进的视觉 AI。
在这一成功基础上,Ultralytics YOLOv8 增强了对计算机视觉任务的支持,如实例分割、姿态估计和图像分类。
现在,YOLO11 将性能提升到了一个新高度。它在 COCO 数据集上的平均精度均值 (mAP) 更高,且参数比 YOLOv8m 少 22%,这意味着它可以在使用更少资源的情况下更精确地识别对象。

图 4. YOLO11 基准测试。
简而言之,YOLO11 在不牺牲效率的情况下提供了最先进的准确性,使其成为该领域的一次重大变革。
Link to this section理解实例分割的工作原理#
接下来,让我们探讨一下实例分割通常是如何工作的。较旧的计算机视觉模型使用两步法。
首先,它们通过在对象周围绘制边界框来检测对象。然后,它们生成一个像素级的遮罩来勾勒出每个对象的精确形状。一个著名的例子是 Mask R-CNN,它在目标检测模型的基础上增加了一个遮罩预测步骤。虽然这种方法很有效,但由于它分多个阶段处理图像,速度可能较慢,这给实时应用带来了挑战。
与此同时,像 YOLO11 这样的模型则一次性处理图像,同时预测对象的边界框和实例分割遮罩。这种简化的方法使其速度大大加快,同时保持了高精度。因此,它特别适用于自动驾驶、视频分析和机器人技术等对速度和精度要求极高的实时应用。
Link to this section为实例分割自定义训练 YOLO11#
YOLO11 开箱即用,自带预训练模型。它已经在 COCO-Seg 数据集上进行了训练,涵盖了日常物品的实例分割。不过,Ultralytics Python 软件包支持自定义训练,这对需要分割独特对象的专业应用至关重要。
为什么自定义训练或微调模型很重要?自定义训练 通过利用预训练模型中已经嵌入的知识,从而应用迁移学习。它不需要从零开始,而是利用较小的数据集和较少的计算资源,使现有模型适应新任务,同时保持高准确度。
Link to this section如何自定义训练 YOLO11#
以下是为实例分割微调 YOLO11 所涉及步骤的详细介绍:
- 数据准备: 根据你的特定应用收集并标注图像。Ultralytics 为多个图像数据集提供支持,但你也可以通过准备符合 YOLO 格式的图像和标注来使用自己的数据集进行训练。
- 使用预训练模型: 无需从头开始,直接使用预训练的 Ultralytics YOLO11 模型。
- 模型训练: 调整关键训练设置,如批次大小(每轮迭代处理的图像数)、图像大小(目标输入分辨率)和轮次(总训练周期)并进行模型训练。
- 性能评估: 模型训练完成后,你可以使用 mAP 等性能指标测试模型的准确性。Ultralytics Python 软件包也提供了用于模型评估的内置功能。
Link to this sectionYOLO11 赋能的实例分割应用#
实例分割可以通过帮助机器更准确地观察和理解对象来解决现实世界的挑战。从改善自动化到保护环境,它在许多领域发挥着关键作用。让我们来看看它正在产生影响的一些示例。
Link to this section使用 YOLO11 进行施工现场安全与监控#
实例分割可以成为确保施工现场安全和效率的关键部分。例如,它可用于监控重型机械。
YOLO11 可以经过微调,以准确地分割和识别起重机、挖掘机和推土机等不同类型的设备,并实时跟踪它们的位置。这使得现场管理人员能够确保机械严格在指定区域内操作,不会侵入工人在场或存在危险的区域。
此外,将此类解决方案与实时警报系统集成,可以迅速采取纠正措施。不仅如此,所收集的见解还有助于优化现场布局和工作流程,进一步降低风险并提高生产力。

图 5. 使用 YOLO11 监控重型机械。
Link to this section使用分割和 YOLO11 进行动物监控#
动物行为监控 帮助研究人员、农场主和自然保护者在不同环境中更好地照料动物。实例分割通过识别和分割农场、动物园和自然栖息地中的个体动物,在这些系统中发挥着重要作用。与使用边界框的传统目标检测不同,实例分割提供了每只动物的像素级描绘,这在动物密集聚集时特别有用。
精细的分割促进了更准确的动作和行为跟踪。可以清楚地识别重叠或紧密聚集的动物,并提供对互动、健康评估和活动模式的更精确分析。总的来说,对动物行为的更深入洞察增强了动物护理和管理实践。

图 6. 使用实例分割监控牛群。
Link to this sectionYOLO11 在体育分析与球员跟踪中的应用#
精确的球员和事件跟踪是体育分析的重要组成部分。传统的跟踪方法依赖于手动标记,可能无法捕捉详细的互动。计算机视觉可以用于在像素级别分割球员、球和关键事件等细节,从而获得深入的见解。
例如,实例分割可以通过清晰地区分每个球员和对象来帮助检测犯规或无球事件。这种由 YOLO11 等模型支持的细粒度监控,为分析师提供了更清晰的信息,以高精度研究运动模式、空间定位和互动。这些见解的一个关键好处是,它们帮助球队优化策略并提升整体表现。
Link to this section实例分割的优缺点#
以下是实例分割可以为各个行业带来的一些主要好处:
- 改进自动化: 通过自动化质量控制和安全监控等任务,实例分割减少了人工干预的需要,并将人为错误降至最低。
- 更好的场景理解: 通过准确勾勒每个对象,实例分割有助于更深入地理解复杂场景,支持更明智的决策。
- 高效的后处理: 像素级的输出简化了背景移除、对象计数和空间分析等任务,减少了额外处理步骤的需求。
虽然这些好处突显了实例分割如何影响不同的用例,但考虑其实现过程中涉及的挑战也至关重要。
以下是实例分割的一些主要局限性:
- 透明度带来的挑战: 分割玻璃和水等透明或反光物体很困难,会导致边界不准确。
- 维护开销: 为了保持模型的准确性和相关性,随着环境条件和数据集的变化,持续的更新和微调是必要的。
- 高标注成本: 训练实例分割模型需要详细的像素级标注,这显著增加了数据准备的时间和成本。
Link to this section关键要点#
实例分割使得精确区分个体对象成为可能,即使它们重叠。通过在像素级别捕捉对象边界,与目标检测等传统计算机视觉任务相比,它提供了对视觉数据的更深刻理解。
计算机视觉的最新进展使得实例分割变得更快、更易于使用。特别是 Ultralytics YOLO11 等计算机视觉模型简化了流程,实现了最小化配置下的实时分割,使其在各种行业和应用中更具可及性。
对 AI 感兴趣吗?访问我们的 GitHub 仓库并加入我们的社区以继续探索。在我们的解决方案页面上了解诸如自动驾驶汽车中的 AI 和 农业视觉 AI 等创新。查看我们的许可选项并开始你的计算机视觉项目吧!






