了解交互式 segmentation 如何利用人机协作提示来隔离物体。探索如何使用 Ultralytics YOLO26 和 Ultralytics Platform 完成任务。
交互式分割是一种高度协作的计算机视觉方法,其中人类用户提供连续或单次输入(例如点击、边界框或文本提示),以指导AI模型在图像中隔离特定对象。与全自动化方法不同,这种人机协作技术允许用户精确定义需要segment的内容,这在处理模糊视觉数据、重叠对象或未见类别时尤其有价值。在过去几年中,基础模型的引入极大地提高了这一过程的速度和准确性,使其成为数据标注和精确成像的重要工具。
其核心工作流程依赖于可提示概念分割,模型通过解释用户指导来生成像素级的mask。用户可以在他们想要选择的前景对象上放置一个“正向”点击,并在他们想要排除的背景区域上放置一个“负向”点击。像Segment Anything Model (SAM)及其后续版本Meta SAM 3等高级模型,通过接受多种手势类型 [1]、边界框甚至文本描述来进一步深化视觉搜索。模型根据这些提示计算最佳边界,用户可以通过额外的点击迭代地细化mask,直到达到所需的准确性。
交互式分割通过将人类专业知识与AI效率相结合,正在改变众多行业的工作流程。
虽然这两个概念都涉及在像素级别分离对象,但它们服务于不同的操作目的。 实例分割通常是一个完全 自动化的过程,其中像 Ultralytics YOLO26 这样的模型 无需用户干预即可 detect 并勾勒出预定义类别(例如,“汽车”、“人物”、“狗”)。您可以在我们的 实例分割指南中了解更多相关信息。
相反,交互式分割不严格依赖预定义类别。它是类别无关的,这意味着它 segment 用户指向的任何内容,使其非常适合 主动学习流程,其中需要使用 Ultralytics Platform 等工具快速标注新对象并将其添加到自定义数据集中。
您可以使用以下方法在自己的项目中轻松实现交互式分割
PyTorch 和 ultralytics python 包。在此
示例中,我们使用 FastSAM 通过提供边界框提示来 segment 特定对象。
from ultralytics import FastSAM
# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")
# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])
# Display the segmented result on screen
results[0].show()
此代码片段演示了简单的空间提示如何直接引导模型隔离感兴趣区域, 通过最少的代码简化复杂的 图像分割 任务。

开启您的机器学习未来之旅