加入我们,深入了解实例分割的概念、工作原理、在各种计算机视觉应用中的用途以及它可能产生的影响。

加入我们,深入了解实例分割的概念、工作原理、在各种计算机视觉应用中的用途以及它可能产生的影响。

计算机视觉应用在我们的日常生活中变得越来越普遍,从监控道路状况的交通摄像头到商店中的自助结账系统。通过使机器能够以类似于人类的方式理解视觉数据,视觉人工智能正在对各个行业产生影响。
许多此类应用依赖于目标检测,这是一种计算机视觉任务,可在图像中的关键对象周围放置边界框。虽然这种方法通常效果很好,但某些图像分析解决方案需要更高的精度。
例如,医学成像不仅仅需要检测肿瘤,还需要勾勒出肿瘤的精确形状。同样,在机器人技术中,机器需要识别物体的精确轮廓才能正确抓取它。为了应对这些挑战,实例分割提供了一种更精确的解决方案。
实例分割是一项计算机视觉任务,旨在支持仅检测物体是不够用的用例——它提供像素级的精度。诸如 Ultralytics YOLO11 之类的计算机视觉模型可以用于轻松地将实例分割应用于图像和视频。

在本指南中,我们将详细介绍实例分割的工作原理、应用以及如何为特定的分割任务定制训练 Ultralytics YOLO11。
假设有一张人们紧密站在一起的集体照。目标检测可以帮助在每个人周围绘制框,但这并不能告诉你他们的确切形状。
另一方面,实例分割类似于小心地描绘每个人的轮廓,这样你就可以看到他们的完整轮廓,即使他们重叠。它不是简单地用一个框标记某个东西的位置,而是以像素级别识别每个对象的精确形状,从而更容易理解复杂的图像。
结果是一个详细的掩码,它填充了对象的形状,精确地确定了哪些像素属于该对象。这种精确度在许多实际应用中非常有用,在这些应用中,理解对象的精确形状和边界非常重要。

在探索实例分割时,您可能会遇到语义分割的概念。
这两种技术都有助于计算机理解像素级别的图像,但它们服务于不同的目的。语义分割根据每个像素的类别对其进行标记,将所有相同类型的对象组合在一起。例如,在一张有多辆汽车的图像中,语义分割会将所有汽车标记为“汽车”,而不会区分各个车辆。
另一方面,实例分割更进一步,它可以单独识别每个对象,为每个实例分配唯一的标签,并在其形状周围创建精确的掩码。因此,在同一张图像中,实例分割不会简单地将所有内容都标记为“汽车”,而是会识别并勾勒出每辆汽车的轮廓。
语义分割的主要区别在于它按类别对对象进行分组,而实例分割则将每个对象区分为具有清晰边界的唯一实体。选择哪种任务取决于具体的应用——是仅仅知道图像中有什么就足够了,还是区分各个对象很重要。

如今,视觉 AI 社区有各种实例分割模型可供选择。有些速度更快,有些精度更高,还有一些更易于使用。
这些选项虽然有用,但可能会引出一个问题:哪一个最适合特定任务?在众多选择中,Ultralytics YOLO 模型因其对速度和准确性的关注而广受欢迎。
此外,这些模型多年来发生了显著的演变。例如,Ultralytics YOLOv5 使用 PyTorch 等框架简化了部署,使更广泛的受众可以访问先进的视觉人工智能,而无需深入的技术专业知识。
在这一成功的基础上,Ultralytics YOLOv8 引入了对计算机视觉任务(如实例分割、姿态估计和图像分类)的增强支持。
现在,YOLO11 将性能提升到了一个新的水平。它在 COCO 数据集上实现了更高的平均精度均值 (mAP),且参数比 YOLOv8m 减少了 22%,这意味着它可以在使用更少资源的同时更精确地识别物体。

简而言之,YOLO11 在不牺牲效率的情况下提供了最先进的准确性,使其成为该领域的颠覆者。
接下来,让我们探讨一下实例分割通常是如何工作的。较旧的 计算机视觉模型 使用两步法。
首先,它们通过在物体周围绘制边界框来检测物体。然后,它们生成像素级掩码以勾勒出每个物体的确切形状。一个著名的例子是 Mask R-CNN,它通过添加掩码预测步骤来构建在目标检测模型之上。虽然此方法有效,但它可能很慢,因为它分多个阶段处理图像,从而使实时应用程序更具挑战性。
同时,像 YOLO11 这样的模型可以一次性处理图像,同时预测物体的边界框和实例分割掩码。这种简化的方法使其速度更快,同时保持了高精度。因此,它特别适用于自动驾驶、视频分析和机器人等实时应用,在这些应用中,速度和精度都至关重要。
YOLO11开箱即用,是一个预训练模型。它已经在COCO-Seg数据集上进行了训练,该数据集涵盖了用于实例分割的日常对象。但是,Ultralytics Python包支持自定义训练,这对于需要分割独特对象的专门应用至关重要。
为什么自定义训练或微调模型很重要?自定义训练通过构建预训练模型中已嵌入的知识来利用迁移学习。它不是从头开始,而是使用较小的数据集和更少的计算资源将现有模型调整为新任务,同时保持高精度。
以下是微调 YOLO11 以进行实例分割所涉及步骤的详细介绍:
实例分割可以通过帮助机器更准确地看到和理解物体来解决现实世界的挑战。从改进自动化到保护环境,它在许多领域都发挥着关键作用。让我们来看一些它正在产生影响的例子。
实例分割可以成为确保建筑工地安全和效率的关键部分。例如,它可以用于监控重型机械。
YOLO11 可以进行微调,以准确地分割和识别不同类型的设备,例如起重机、挖掘机和推土机,并实时跟踪它们的位置。这使得现场管理人员可以确保机械严格在指定区域内运行,并且不会侵占存在工人或存在危险的区域。
此外,将此类解决方案与实时警报系统集成,可以迅速采取纠正措施。除此之外,收集到的见解可以帮助优化场地布局和工作流程,进一步降低风险并提高生产力。

动物行为监测帮助研究人员、农民和自然资源保护主义者更好地照顾不同环境中的动物。实例分割在这些系统中发挥着有益的作用,它可以识别和分割农场、动物园和自然栖息地中的单个动物。与使用边界框的传统对象检测不同,实例分割提供了每个动物的像素级划分,这在动物彼此靠近时特别有用。
详细的分割有助于更准确地跟踪动物的运动和行为。重叠或紧密聚集的动物可以被清楚地识别,从而提供更精确的互动、健康评估和活动模式分析。总的来说,对动物行为的深入了解可以加强动物护理和管理实践。

精确的球员和事件跟踪是体育分析的重要组成部分。传统的跟踪方法依赖于手动标记,可能无法捕捉到详细的互动。计算机视觉可用于在像素级别分割每个球员、球和关键事件等细节,以获得详细的见解。
例如,实例分割可以通过清晰地分离每个球员和对象来帮助检测犯规或无球事件等事件。YOLO11 等模型实现的这种精细监控为分析师提供了更清晰的信息,可以高精度地研究运动模式、空间位置和互动。这些见解的一个主要好处是,它们可以帮助团队改进策略并提高整体表现。
以下是实例分割可以为各行各业带来的一些主要好处:
虽然这些优势突出了实例分割如何影响不同的用例,但同样重要的是要考虑其实施所涉及的挑战。
以下是实例分割的一些主要局限性:
实例分割可以精确地区分单个物体,即使它们重叠也是如此。通过在像素级别捕获物体边界,与传统的物体检测等计算机视觉任务相比,它可以更深入地理解视觉数据。
计算机视觉的最新进展使实例分割变得更快且更易于使用。特别是,像 Ultralytics YOLO11 这样的计算机视觉模型简化了该过程,只需最少的设置即可实现实时分割,从而使其更易于为各个行业和应用所用。
对 AI 感兴趣吗?访问我们的 GitHub 仓库并与我们的社区联系以继续探索。在我们的解决方案页面上了解有关自动驾驶汽车中的 AI和农业中的视觉 AI等创新。查看我们的许可选项并开始计算机视觉项目!