探索可提示概念分割,了解它与传统方法的区别,以及YOLOE-26等相关模型如何实现开放词汇能力。
探索可提示概念分割,了解它与传统方法的区别,以及YOLOE-26等相关模型如何实现开放词汇能力。
视觉AI正迅速发展,并被广泛应用于分析现实世界环境中的图像和视频。例如,从交通管理系统到零售分析的各种应用都正在与计算机视觉模型集成。
在许多此类应用中,视觉模型(例如目标 detect 模型)经过训练,可以识别预定义的对象集,包括车辆、人员和设备。在训练过程中,这些模型会看到许多带标签的示例,以便它们学习每个对象的外观以及如何将其与场景中的其他对象区分开来。
对于 segment 任务,模型更进一步,在这些对象周围生成精确的像素级轮廓。这使得系统能够精确理解图像中每个对象的位置。
只要系统只需要识别其训练过的内容,这种方法就有效。然而,在现实世界环境中,这种情况很少见。
视觉场景通常是动态的。新的对象和视觉概念不断出现,条件发生变化,用户经常希望 segment 那些不属于原始训练设置的对象。
这些局限性在 segment 方面尤为明显。随着视觉AI的不断发展,对更灵活的 segment 模型的需求日益增长,这些模型能够适应新概念而无需重复训练。这就是为什么可提示概念分割(PCS)受到关注的原因。
用户无需依赖固定的对象类别列表,可以使用文本、视觉提示或示例图像来描述他们想要 segment 的内容。这些模型随后可以识别并 segment 所有与所描述概念匹配的区域,即使该概念在训练期间未明确包含。
在本文中,我们将探讨可提示概念分割的工作原理、它与传统方法的区别以及它目前的应用场景。
在大多数情况下,segment 模型经过训练以识别少量对象类型。当视觉AI系统只需要 detect 和 segment 特定对象集时,这种方法效果很好。
然而,在现实世界应用中,视觉场景是动态的。新对象不断出现,任务要求不断变化,用户经常需要 segment 那些未包含在原始标签集中的概念。支持这些情况通常意味着收集新的高质量数据和标注,并重新训练模型,这会增加成本并减缓部署速度。
可提示概念分割通过让用户告诉模型要寻找什么,而不是从固定的标签列表中选择,从而解决了这个问题。用户描述他们正在寻找的对象或概念,模型会高亮显示图像中所有匹配的区域。这使得将用户意图与图像中的实际像素联系起来变得更加容易。

支持可提示概念分割的模型具有灵活性,因为它们可以接受不同类型的输入。换句话说,有不止一种方式可以告诉模型要寻找什么,例如文本描述、视觉提示或通过示例图像。
以下是对每种方法的详细介绍:
在我们深入探讨可提示概念分割的工作原理之前,我们首先将其与各种传统的目标 segment 方法进行比较。
PCS支持开放词汇和提示驱动的模型。它可以通过提示处理新概念,但传统 segment 无法做到。传统 segment 方法有几种不同类型,每种都有其自身的假设和局限性。
以下是几种主要传统 segment 类型的一瞥:
所有这些方法都依赖于预定义的对象类别列表。它们在该范围内表现良好,但对于范围之外的概念处理不佳。当需要分割一个新的特定对象时,通常需要额外的训练数据和模型微调。
PCS旨在改变这一点。它不再局限于预定义类别,而是允许你在推理时描述想要 segment 图像中的内容。
接下来,我们将探讨分割模型是如何演进到可提示概念分割的。
一个标志着 segmentation 领域转变的流行基础模型是SAM,即Segment Anything Model。它于2023年推出。SAM不再依赖预定义的对象类别,而是允许用户通过简单的视觉提示(如点或边界框)来引导 segmentation。
借助 SAM,用户不再需要选择标签。他们只需指示物体所在的位置,模型就会为其生成掩码。这使得分割更加灵活,但用户仍然需要告诉模型关注的区域。
SAM 2于2024年发布,在此基础上通过处理更复杂的场景并将可提示segmentation扩展到视频领域。它在不同光照条件、物体形状和运动下提高了鲁棒性,同时仍主要依靠视觉提示来引导segmentation。
SAM 3 模型是此次演进的最新一步。它于去年发布,是一个统一模型,结合了视觉理解和语言指导,从而在图像和视频分割任务中实现了行为一致性。
借助 SAM 3,用户不再局限于指向或绘制提示。相反,他们可以使用文本描述想要分割的内容,模型会在图像或视频帧中搜索与该描述匹配的区域。
分割由概念而非固定的物体类别引导,支持跨不同场景和时间的开放词汇使用。事实上,SAM 3 在一个庞大的、学习到的概念空间上运行,该空间基于从 Wikidata 等来源派生的本体,并通过大规模训练数据进行扩展。

与主要依赖几何提示的早期版本相比,SAM 3 代表着迈向更灵活、概念驱动的分割的一步。这使其更适合实际应用,在这些应用中,感兴趣的物体或概念可能会变化,并且无法总是预先定义。
那么,可提示概念分割是如何工作的?它建立在大型预训练视觉模型和视觉语言模型之上,这些模型在海量图像集合上进行训练,在许多情况下,还包括配对文本。这种训练使它们能够学习通用视觉模式和语义含义。
大多数 PCS 模型采用基于 Transformer 的架构,它们一次性处理整个图像,以理解不同区域之间的关系。视觉 Transformer 从图像中提取视觉特征,而文本编码器将词语转换为模型可以处理的数值表示。
在训练过程中,这些模型可以从不同类型的监督中学习,包括定义精确物体边界的像素级掩码、大致定位物体的边界框,以及描述图像中内容的图像级标签。使用不同类型的标注数据进行训练有助于模型捕捉精细细节和更广泛的视觉概念。
在推理时,即模型实际用于进行预测时,PCS 遵循提示驱动的过程。用户通过文本描述、视觉提示(如点或框)或示例图像提供指导。模型将提示和图像编码成共享的内部表示或嵌入,并识别与所描述概念对齐的区域。
掩码解码器随后将这种共享表示转换为精确的像素级 segmentation 掩码。由于模型将视觉特征与语义意义关联起来,即使新概念未在训练期间明确包含,模型也能够对其进行 segment。
此外,通常可以通过调整提示或添加额外指导来优化输出,这有助于模型处理复杂或模糊的场景。这种迭代过程支持在部署期间进行实际优化。
可提示概念分割模型通常根据它们分割以前未见概念的能力以及在不同场景下的鲁棒性表现进行评估。基准测试通常关注掩码质量、泛化能力和计算效率,这反映了实际部署要求。
接下来,我们来看看可提示概念分割已在哪些领域得到应用并开始产生实际影响。
医学影像涉及许多生物结构、疾病和扫描类型,新病例每天都在出现。传统分割模型难以应对这种多样性。
PCS 自然地契合这一领域,因为它允许临床医生描述他们想要查找的内容,而不是从一个简短、固定的列表中选择。借助文本短语或视觉提示,PCS 可以直接用于分割器官或关注区域,无需为每个新任务重新训练模型。这使得处理多样化的临床需求变得更容易,减少了手动绘制掩码的需求,并且适用于多种影像类型。
一个很好的例子是MedSAM-3,它采用了 SAM 3 架构,用于医学影像中的文本可提示 PCS。该模型可以通过明确的解剖学和病理学术语进行提示,例如肝脏或肾脏等器官名称,以及肿瘤或病变等与病灶相关的概念。给出提示后,模型直接分割医学图像中对应的区域。
MedSAM-3 还集成了多模态大语言模型(MLLMs 或 multimodal LLMs),它们可以对文本和图像进行推理。这些模型在“代理在环”设置中运行,结果通过迭代进行细化,以提高在更具挑战性病例中的准确性。

MedSAM-3 在X射线、MRI、CT、超声和视频数据方面表现良好,突出了 PCS 如何能够在实际临床环境中实现更灵活、高效的医学影像工作流程。
机器人手术依赖视觉系统来 track 工具并理解快速变化的 surgical 场景。器械移动迅速,光照条件多变,新工具随时可能出现,这使得预定义标签系统难以维护。
借助 PCS,机器人可以 track 工具、引导相机并实时跟踪手术步骤。这减少了手动标注,并使系统更容易适应不同的手术程序。外科医生或自动化系统可以使用文本提示,例如“抓手”、“手术刀”或“相机工具”,来指示图像中应分割的内容。

另一个与可提示概念分割相关的有趣且领先的模型是我们的 Ultralytics YOLOE-26。我们的模型将开放词汇、提示驱动的分割引入了 Ultralytics YOLO 模型家族。
YOLOE-26 基于 Ultralytics YOLO26 架构构建,支持开放词汇实例分割。YOLOE-26 允许用户通过多种方式引导分割。
它支持文本提示,其中简短、视觉关联的短语可以指定目标对象;也支持视觉提示,根据图像线索提供额外指导。此外,YOLOE-26 还包含一个无提示模式,用于零样本推理,在该模式下,模型无需用户提示即可从内置词汇中 detect 和 segment 对象。
YOLOE-26 非常适用于视频分析、机器人感知和边缘系统等应用,在这些应用中,对象类别可能会发生变化,但低延迟和可靠的吞吐量仍然至关重要。它对于数据标注和数据集管理也特别有用,因为它通过自动化部分标注过程来简化工作流程。
以下是使用可提示概念分割的一些主要优势:
尽管 PCS 具有明显优势,但仍有一些局限性需要考虑:
在探索可提示分割时,您可能会想知道它最适合哪些应用,以及何时像 YOLO26 这样的传统计算机视觉模型更适合您尝试解决的问题。可提示分割适用于一般对象,但对于需要非常精确和一致结果的用例来说,它并不适用。
缺陷检测就是一个很好的例子。在制造业中,缺陷通常微小而细微,例如微小划痕、凹痕、未对准或表面不规则。它们还会根据材料、光照和生产条件而广泛变化。
这些问题难以用简单的提示来描述,通用模型也更难可靠地 detect。总的来说,基于提示的模型容易漏检缺陷或产生不稳定结果,而专门针对缺陷数据训练的模型对于实际检测系统来说则可靠得多。
可提示概念分割使视觉系统更容易适应现实世界,因为新对象和新概念不断涌现。用户无需局限于固定标签,只需描述他们想要 segment 的内容,然后让模型完成其余工作,这节省了时间并减少了人工工作。尽管它仍有局限性,但 PCS 已经改变了分割在实践中的使用方式,并有可能成为未来视觉系统的核心组成部分。
访问我们的 GitHub 仓库 并加入我们的 社区,探索更多关于 AI 的内容。查看我们的解决方案页面,了解 机器人中的 AI 和 制造业中的计算机视觉。了解 我们的许可选项,立即开始使用视觉 AI!
开启您的机器学习未来之旅