深圳Yolo 视觉
深圳
立即加入
词汇表

交互式分段

了解交互式分割如何利用“人机协同”提示来隔离物体。探索如何利用Ultralytics 和Ultralytics 完成各项任务。

交互式分割是一种高度协作的计算机视觉方法, 其中人类用户通过 连续或单次输入(例如点击、边界框或文本提示)来引导人工智能模型 从图像中识别出特定物体。 与全自动方法不同,这种“人机协同”技术允许用户 精确定义需要分割的对象,因此在处理模糊的视觉数据、 重叠物体或未见类别时尤为有效。过去几年中,基础模型的引入 极大地提升了该过程的速度和准确性,使其成为 数据标注和精密成像领域不可或缺的工具。

交互式细分如何运作

该工作流的核心在于 基于提示的概念分割,即模型通过解读用户指引来生成像素级精确的遮罩。用户可以在 想要选中的前景对象上进行“正向”点击,并在想要排除的背景 区域上进行“负向”点击。 像 Segment Anything Model (SAM)及其后续版本 MetaSAM 这样的高级模型,通过支持 多种手势类型[1]、边界框,甚至文本 描述来进一步完善视觉搜索。模型会根据这些提示计算出最佳边界,而 用户可以通过多次点击迭代优化蒙版,直至达到所需的精度。

实际应用

交互式分段技术通过将人类的专业知识与人工智能的效率相结合,正在改变众多行业的工作流程。

  • 医学影像: 医疗保健领域的AI应用中,医生和放射科医师利用 交互式工具在MRI和CT扫描图像中标注肿瘤、病变或特定器官。关于 医学影像空间建模的研究[2]表明, 通过交互式点击,医疗专业人员能够快速修正AI的预测结果,从而确保患者诊断所需的 严谨精准度。
  • 地理空间与卫星测绘:城市规划师和环境科学家利用交互式 模型来加速 GIS 要素提取 [3]。分析人员无需手动描绘复杂的海岸线、农业边界或新基础设施,只需 进行几次关键点击,即可立即生成精确的地理多边形。
  • 工业缺陷检测: 制造业的AI应用中,质量控制 工程师可通过交互式提示标注生产线上的微观缺陷,从而使系统能够动态适应 新型缺陷,而无需对整个模型进行重新训练。

交互式分割与实例分割

虽然这两个概念都涉及在像素级别对物体进行分割,但它们的实际应用目的却有所不同。 实例分割通常是一个完全 自动化的过程,在此过程中,模型(如Ultralytics ) 无需用户 干预即可检测并勾勒出预定义的类别(例如“汽车”、“人”、“狗”)。您可以在我们的 实例分割指南中进一步了解其工作原理。

相反,交互式分割并不严格依赖预定义的类别。它具有类别无关性,这意味着它 会对用户所指的任何对象进行分割,因此非常适合 主动学习流程——在该流程中,需要 Ultralytics 等工具对新出现的对象进行快速标注,并将其添加到自定义数据集中。

Ultralytics应用示例

您可以使用以下方法,轻松地在自己的项目中实现交互式分段: PyTorch 以及 ultralytics Python 。在此 示例中,我们使用 FastSAM 通过 提供一个边界框提示segment 特定segment 。

from ultralytics import FastSAM

# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")

# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])

# Display the segmented result on screen
results[0].show()

此代码片段演示了如何通过一个简单的空间提示直接引导模型定位目标区域, 从而仅需极少代码即可简化复杂的图像分割任务。

让我们携手共创人工智能的未来!

开启您的机器学习未来之旅