Interactive Segmentation
了解交互式分割如何使用人机回环提示来隔离对象。探索如何使用 Ultralytics YOLO26 和 Ultralytics Platform 来完成任务。
交互式分割是一种高度协作的计算机视觉方法,人类用户可以通过持续或单次输入(如点击、边界框或文本提示)来引导 AI 模型隔离图像中的特定对象。与全自动化方法不同,这种人在回路(human-in-the-loop)技术允许用户精确定义需要分割的内容,在处理模糊的视觉数据、重叠对象或未见过的类别时尤为重要。过去几年,基础模型的引入极大地提高了这一过程的速度和准确性,使其成为数据标注和精密成像的重要工具。
Link to this section交互式分割的工作原理#
其核心工作流依赖于可提示概念分割,模型通过解读用户指导来生成像素级的精准掩码。用户可以在想要选择的前景对象上放置“正向”点击,并在想要排除的背景区域放置“负向”点击。诸如Segment Anything Model (SAM) 及其后续版本 Meta SAM 3 等先进模型更进一步,支持接受多种手势类型 [1]、边界框甚至文本描述来定位视觉搜索。模型会基于这些提示计算出最优边界,用户可以通过额外的点击迭代优化掩码,直到达到预期的精度。
Link to this section实际应用#
交互式分割通过融合人类专业知识与 AI 效率,正在改变各行各业的工作流。
- 医学影像: 在医疗保健 AI 领域,医生和放射科医生使用交互式工具来隔离 MRI 和 CT 扫描中的肿瘤、病变或特定器官。关于医学影像空间建模 [2] 的研究表明,交互式点击允许医疗专业人员快速修正 AI 预测,从而确保患者诊断所需的严谨精度。
- 地理空间与卫星测绘: 城市规划者和环境科学家使用交互式模型来加速GIS 特征提取 [3]。分析师无需手动追踪复杂的海岸线、农业边界或新基础设施,只需放置几个策略性点击即可立即生成精确的地理多边形。
- 工业缺陷检测: 对于制造业 AI,质量控制工程师可以使用交互式提示来突出生产线上的微小缺陷,从而在无需重新训练整个模型的情况下,动态调整系统以适应新型缺陷。
Link to this section交互式分割与实例分割的对比#
虽然这两个概念都涉及在像素层面分离对象,但它们有着不同的操作目的。实例分割通常是一个全自动化的过程,模型(如 Ultralytics YOLO26)在没有用户干预的情况下检测并勾勒出预定义的类别(例如“汽车”、“人”、“狗”)。你可以在我们的实例分割指南中了解更多关于其工作原理的信息。
相反,交互式分割并不严格依赖预定义的类别。它是类别无关的,意味着它可以分割用户指向的任何内容,这使其非常适合主动学习流水线,即通过使用 Ultralytics Platform 等工具,快速标注新颖对象并将其添加到自定义数据集中。
Link to this section使用 Ultralytics 的示例#
你可以使用 PyTorch 和 ultralytics Python 软件包在自己的项目中轻松实现交互式分割。在此示例中,我们使用 FastSAM 通过提供边界框提示来分割特定对象。
from ultralytics import FastSAM
# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")
# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])
# Display the segmented result on screen
results[0].show()此代码片段演示了简单的空间提示如何直接引导模型隔离感兴趣区域,从而以极少的代码简化复杂的图像分割任务。






