深圳Yolo 视觉
深圳
立即加入
词汇表

交互式 segmentation

了解交互式 segmentation 如何利用人机协作提示来隔离物体。探索如何使用 Ultralytics YOLO26 和 Ultralytics Platform 完成任务。

交互式分割是一种高度协作的计算机视觉方法,其中人类用户提供连续或单次输入(例如点击、边界框或文本提示),以指导AI模型在图像中隔离特定对象。与全自动化方法不同,这种人机协作技术允许用户精确定义需要segment的内容,这在处理模糊视觉数据、重叠对象或未见类别时尤其有价值。在过去几年中,基础模型的引入极大地提高了这一过程的速度和准确性,使其成为数据标注和精确成像的重要工具。

交互式分割的工作原理

其核心工作流程依赖于可提示概念分割,模型通过解释用户指导来生成像素级的mask。用户可以在他们想要选择的前景对象上放置一个“正向”点击,并在他们想要排除的背景区域上放置一个“负向”点击。像Segment Anything Model (SAM)及其后续版本Meta SAM 3等高级模型,通过接受多种手势类型 [1]、边界框甚至文本描述来进一步深化视觉搜索。模型根据这些提示计算最佳边界,用户可以通过额外的点击迭代地细化mask,直到达到所需的准确性。

实际应用

交互式分割通过将人类专业知识与AI效率相结合,正在改变众多行业的工作流程。

  • 医学影像:医疗AI中,医生和放射科医生使用交互式工具来隔离MRI和CT扫描中的肿瘤、病变或特定器官。对医学图像空间建模 [2] 的研究表明,交互式点击允许医疗专业人员快速纠正AI预测,确保患者诊断所需的严谨精度。
  • 地理空间与卫星测绘:城市规划师和环境科学家使用交互式模型来加速GIS特征提取[3]。分析师无需手动描绘复杂的海岸线、农业边界或新建基础设施,只需进行几次策略性点击,即可即时生成精确的地理多边形。
  • 工业缺陷检测:对于制造业AI,质量控制工程师可以使用交互式提示来突出生产线上的微小缺陷,动态地使系统适应新型缺陷,而无需重新训练整个模型。

交互式分割 vs. 实例分割

虽然这两个概念都涉及在像素级别分离对象,但它们服务于不同的操作目的。 实例分割通常是一个完全 自动化的过程,其中像 Ultralytics YOLO26 这样的模型 无需用户干预即可 detect 并勾勒出预定义类别(例如,“汽车”、“人物”、“狗”)。您可以在我们的 实例分割指南中了解更多相关信息。

相反,交互式分割不严格依赖预定义类别。它是类别无关的,这意味着它 segment 用户指向的任何内容,使其非常适合 主动学习流程,其中需要使用 Ultralytics Platform 等工具快速标注新对象并将其添加到自定义数据集中。

使用 Ultralytics 的示例

您可以使用以下方法在自己的项目中轻松实现交互式分割 PyTorchultralytics python 包。在此 示例中,我们使用 FastSAM 通过提供边界框提示来 segment 特定对象。

from ultralytics import FastSAM

# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")

# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])

# Display the segmented result on screen
results[0].show()

此代码片段演示了简单的空间提示如何直接引导模型隔离感兴趣区域, 通过最少的代码简化复杂的 图像分割 任务。

让我们一起共建AI的未来!

开启您的机器学习未来之旅