加入我们,深入了解实例分割的概念、工作原理、在各种计算机视觉应用中的用途以及它可能产生的影响。

加入我们,深入了解实例分割的概念、工作原理、在各种计算机视觉应用中的用途以及它可能产生的影响。

计算机视觉应用在我们的日常生活中变得越来越普遍,从监控道路状况的交通摄像头到商店中的自助结账系统。通过使机器能够以类似于人类的方式理解视觉数据,视觉人工智能正在对各个行业产生影响。
许多此类应用依赖于目标检测,这是一种计算机视觉任务,可在图像中的关键对象周围放置边界框。虽然这种方法通常效果很好,但某些图像分析解决方案需要更高的精度。
例如,医学成像不仅仅需要检测肿瘤,还需要勾勒出肿瘤的精确形状。同样,在机器人技术中,机器需要识别物体的精确轮廓才能正确抓取它。为了应对这些挑战,实例分割提供了一种更精确的解决方案。
实例分割是一项计算机视觉任务,旨在支持仅检测物体还不够的使用案例--它提供了像素级的精确度。计算机视觉模型,如 Ultralytics YOLO11等计算机视觉模型可以轻松地对图像和视频进行实例分割。

在本指南中,我们将详细介绍实例细分的工作原理、应用以及Ultralytics YOLO11 如何针对特定细分任务进行自定义训练。
假设有一张人们紧密站在一起的集体照。目标检测可以帮助在每个人周围绘制框,但这并不能告诉你他们的确切形状。
另一方面,实例分割类似于小心地描绘每个人的轮廓,这样你就可以看到他们的完整轮廓,即使他们重叠。它不是简单地用一个框标记某个东西的位置,而是以像素级别识别每个对象的精确形状,从而更容易理解复杂的图像。
结果是一个详细的掩码,它填充了对象的形状,精确地确定了哪些像素属于该对象。这种精确度在许多实际应用中非常有用,在这些应用中,理解对象的精确形状和边界非常重要。

在探索实例分割时,您可能会遇到语义分割的概念。
这两种技术都有助于计算机理解像素级别的图像,但它们服务于不同的目的。语义分割根据每个像素的类别对其进行标记,将所有相同类型的对象组合在一起。例如,在一张有多辆汽车的图像中,语义分割会将所有汽车标记为“汽车”,而不会区分各个车辆。
另一方面,实例分割更进一步,它可以单独识别每个对象,为每个实例分配唯一的标签,并在其形状周围创建精确的掩码。因此,在同一张图像中,实例分割不会简单地将所有内容都标记为“汽车”,而是会识别并勾勒出每辆汽车的轮廓。
语义分割的主要区别在于它按类别对对象进行分组,而实例分割则将每个对象区分为具有清晰边界的唯一实体。选择哪种任务取决于具体的应用——是仅仅知道图像中有什么就足够了,还是区分各个对象很重要。

如今,视觉 AI 社区有各种实例分割模型可供选择。有些速度更快,有些精度更高,还有一些更易于使用。
这些选项虽然有用,但也会带来一个问题:哪一个才是适合特定任务的正确选项?在这些选项中,Ultralytics YOLO 模型颇受欢迎,因为它们注重速度和准确性。
此外,这些模式多年来也有了很大发展。例如 Ultralytics YOLOv5使用PyTorch 等框架简化了部署,使更多人无需深厚的专业技术知识即可使用高级视觉人工智能。
再接再厉、 Ultralytics YOLOv8增强了对计算机视觉任务的支持,如实例分割、姿势估计 和图像分类。
现在,YOLO11 将性能提升到了一个新的水平。与YOLOv8m 相比,它在COCO 数据集上实现了更高的平均精度mAP),而参数数量却减少了 22%,这意味着它可以在使用更少资源的情况下更精确地识别物体。

简而言之,YOLO11 在不降低效率的情况下提供了最先进的精确度,从而改变了现场的游戏规则。
接下来,让我们探讨一下实例分割通常是如何工作的。较旧的 计算机视觉模型 使用两步法。
首先,它们通过绘制物体周围的边界框来detect 物体。然后,生成像素级掩码,勾勒出每个物体的准确形状。一个著名的例子是 Mask R-CNN,它在物体检测模型的基础上增加了一个掩码预测步骤。虽然这种方法很有效,但由于需要分多个阶段处理图像,因此速度可能会很慢,这使得实时应用更具挑战性。
与此同时,YOLO11 等模型可以一次性处理图像,同时预测对象边界框和实例分割掩码。这种精简的方法在保持高精度的同时,速度也更快。因此,它特别适用于自动驾驶、视频分析和机器人等对速度和精度都至关重要的实时应用。
开箱即用的YOLO11 是一个预训练模型。它是在COCO 数据集上训练的,该数据集涵盖了日常物体的分割实例。不过,Ultralytics Python 软件包支持自定义训练,这对于需要分割独特物体的专业应用来说至关重要。
为什么自定义训练或微调模型很重要?自定义训练通过构建预训练模型中已嵌入的知识来利用迁移学习。它不是从头开始,而是使用较小的数据集和更少的计算资源将现有模型调整为新任务,同时保持高精度。
下面将详细介绍微调YOLO11 的步骤,以便进行实例分割:
实例分割可以通过帮助机器更准确地看到和理解物体来解决现实世界的挑战。从改进自动化到保护环境,它在许多领域都发挥着关键作用。让我们来看一些它正在产生影响的例子。
实例分割可以成为确保建筑工地安全和效率的关键部分。例如,它可以用于监控重型机械。
YOLO11 可以进行微调,以准确segment 和识别不同类型的设备,如起重机、挖掘机和推土机,并实时track 它们的位置。这样,现场管理人员就能确保机械严格在指定区域内运行,而不会侵入有工人在场或存在危险的区域。
此外,将此类解决方案与实时警报系统集成,可以迅速采取纠正措施。除此之外,收集到的见解可以帮助优化场地布局和工作流程,进一步降低风险并提高生产力。

动物行为监测帮助研究人员、农民和自然资源保护主义者更好地照顾不同环境中的动物。实例分割在这些系统中发挥着有益的作用,它可以识别和分割农场、动物园和自然栖息地中的单个动物。与使用边界框的传统对象检测不同,实例分割提供了每个动物的像素级划分,这在动物彼此靠近时特别有用。
详细的分割有助于更准确地跟踪动物的运动和行为。重叠或紧密聚集的动物可以被清楚地识别,从而提供更精确的互动、健康评估和活动模式分析。总的来说,对动物行为的深入了解可以加强动物护理和管理实践。

精确的球员和事件追踪是体育分析的重要组成部分。传统的跟踪方法依赖于人工标记,可能无法捕捉到详细的互动。计算机视觉可用于在像素级别segment 每个球员、球和关键事件等细节,从而获得详细的见解。
例如,实例分割可以通过清晰地分离每个球员和物体,帮助detect 犯规或球外事件等事件。通过YOLO11 等模型实现的这种细粒度监控,可为分析人员提供更清晰的信息,以高精度研究运动模式、空间定位和互动。这些洞察力的一个重要好处是,它们可以帮助球队完善战略,提高整体表现。
以下是实例分割可以为各行各业带来的一些主要好处:
虽然这些优势突出了实例分割如何影响不同的用例,但同样重要的是要考虑其实施所涉及的挑战。
以下是实例分割的一些主要局限性:
实例分割可以精确地区分单个物体,即使它们重叠也是如此。通过在像素级别捕获物体边界,与传统的物体检测等计算机视觉任务相比,它可以更深入地理解视觉数据。
计算机视觉领域的最新进展使实例分割变得更快、更容易使用。尤其是Ultralytics YOLO11 等计算机视觉模型简化了这一过程,只需最少的设置就能实现实时分割,使其更易于在各行业和应用中使用。
对 AI 感兴趣吗?访问我们的 GitHub 仓库并与我们的社区联系以继续探索。在我们的解决方案页面上了解有关自动驾驶汽车中的 AI和农业中的视觉 AI等创新。查看我们的许可选项并开始计算机视觉项目!