遇见 YOLO26: 下一代视觉 AI。
Ultralytics
视觉 AI

理解可提示的概念分割

探索可提示的概念分割 (promptable concept segmentation),了解它与传统方法的区别,以及 YOLOE-26 等相关模型如何实现开放词汇能力。

ABAbirami Vina
4 min read
图像中对象的可提示概念分割

视觉 AI 正在迅速发展,并被广泛用于分析现实环境中的图像和视频。例如,从交通管理系统到零售分析,各种应用都在集成 计算机视觉模型

在许多这类应用中,视觉模型(如目标检测模型)经过训练以识别一组预定义的物体,包括车辆、人和设备。在训练过程中,这些模型会被展示大量的标注样本,以便它们了解每个物体的外观以及如何在场景中将其与其它物体区分开来。

对于分割任务,模型更进一步,在这些物体周围生成精确的像素级轮廓。这使系统能够准确地了解每个物体在图像中的位置。

只要系统只需要识别其受训内容,这种方法就能很好地工作。然而,在现实环境中,情况往往并非如此。

视觉场景通常是动态的。新的物体和视觉概念不断出现,条件也在变化,用户通常希望分割那些不属于原始训练设置的物体。

当涉及到分割时,这些局限性尤为明显。随着视觉 AI 的持续发展,人们越来越需要更灵活的分割模型,能够适应新概念而无需反复重新训练。这就是可提示概念分割 (PCS) 受到关注的原因。

用户无需依赖固定的物体类别列表,而是可以通过文本、视觉提示或示例图像来描述他们想要分割的内容。然后,这些模型就能识别并分割所有符合所描述概念的区域,即使该概念在训练期间未被明确包含。

在本文中,我们将探讨可提示概念分割的工作原理、它与传统方法的区别以及它在当今的应用场景。

Link to this section什么是可提示概念分割?#

在大多数情况下,分割模型经过训练以识别一小部分物体类型。当视觉 AI 系统只需要检测和分割一组特定的物体时,这种方法效果很好。

然而,在现实应用中,视觉场景是动态的。新的物体出现,任务需求发生变化,用户通常需要分割未包含在原始标签集中的概念。支持这些情况通常意味着需要收集新的高质量数据和标注并重新训练模型,这增加了成本并拖慢了部署速度。

可提示概念分割通过让用户告诉模型寻找什么,而不是从固定的标签列表中进行选择,从而解决了这个问题。用户描述他们正在寻找的物体或想法,模型则会高亮显示图像中所有匹配的区域。这使得将用户的意图与图像中的实际像素联系起来变得容易得多。

使用概念提示来分割图像中的对象

图 1. 使用概念提示进行分割的概览 (来源)

Link to this section用不同类型的提示引导分割#

支持可提示概念分割的模型非常灵活,因为它们可以接受不同类型的输入。换句话说,告诉模型寻找什么的方法不止一种,例如文本描述、视觉暗示或通过示例图像。

以下是对每种方法的详细介绍:

  • 文本提示: 可以使用“校车”或“肿瘤区域”等短语来描述要分割的概念。模型会解释词语的含义并识别出匹配的区域。
  • 视觉提示: 这些提示使用图像内部的点、框或粗略草图作为暗示。这些线索可以引导模型观察位置并帮助塑造最终的边界。
  • 图像示例: 参考图像或小的裁剪图代表了感兴趣的概念。模型会搜索视觉上相似的区域,并根据视觉外观进行分割。

Link to this sectionPCS 与传统分割之间的区别#

在我们深入探讨可提示概念分割的工作原理之前,先将其与各种传统的物体分割方法进行比较。

PCS 使模型具备了开放词汇和提示驱动的特性。它可以通过提示描述的新想法来工作,而传统分割则不能。存在几种不同类型的传统分割方法,每种方法都有其自身的假设和局限性。

以下是几种主要传统分割类型的一瞥:

  • 语义分割:图像中的每个像素都被标记为属于某个类别,如道路、建筑物或人。所有具有相同标签的像素会被归为一组,因此模型不会区分单独的物体实例。
  • 实例分割:模型识别并分割单个物体,因此两个人或两辆车被视为单独的项目。
  • 全景分割:此技术结合了语义分割和实例分割,以提供场景的完整视图,涵盖背景区域和单个物体。

所有这些方法都依赖于预定义的物体类别列表。它们在该范围内工作良好,但不能很好地处理范围之外的概念。当需要分割一个新的特定物体时,通常需要额外的训练数据和模型微调。

PCS 旨在改变这一点。它让你在推理时描述图像中想要分割的内容,而不是被锁定在预定义的类别中。

Link to this sectionPCS 模型的发展#

接下来,让我们了解一下分割模型是如何向可提示概念分割演进的。

一个标志着分割领域转变的流行基础模型是 SAM,即 Segment Anything Model。它于 2023 年推出。SAM 不依赖预定义的物体类别,而是允许用户使用简单的视觉提示(如点或边界框)来引导分割。

有了 SAM,用户不再需要选择标签。他们只需指出物体所在的位置,模型就会为其生成一个掩码。这使得分割更加灵活,但用户仍然需要向模型展示观察的位置。

2024 年发布的 SAM 2 在此基础上更进一步,能够处理更复杂的场景并将可提示分割扩展到视频。它在不同光照条件、物体形状和运动下提高了鲁棒性,同时仍然主要依靠视觉提示来引导分割。

SAM 3 模型是这一演进的最新一步。它于去年发布,是一个结合了视觉理解和语言引导的统一模型,使得图像和视频分割任务的行为保持一致。

有了 SAM 3,用户不再局限于点选或绘制提示。相反,他们可以使用文本描述想要分割的内容,模型会在图像或视频帧中搜索符合该描述的区域。

分割是由概念而非固定的物体类别引导的,支持跨不同场景和时间的开放词汇使用。实际上,SAM 3 在一个巨大的、已学习的概念空间上运行,该空间扎根于源自 Wikidata 等来源并经由大规模训练数据扩展的本体论。

提示 SAM 3 以分割单张图像

图 2. 提示 SAM 3 并分割单张图像的示例 (来源)

与主要依赖几何提示的早期版本相比,SAM 3 代表了向更灵活、以概念驱动的分割迈出的一步。这使其更适合现实应用,因为在这些应用中,感兴趣的物体或想法可能会发生变化,且无法始终预先定义。

Link to this section探索可提示视觉分割的工作原理#

那么,可提示概念分割是如何工作的呢?它建立在大型预训练视觉模型和 视觉语言模型 之上,这些模型是在海量图像集(在许多情况下还包括配对的文本)上进行训练的。这种训练使它们能够学习通用的视觉模式和语义含义。

大多数 PCS 模型使用基于 Transformer 的架构,它们一次处理整个图像以理解不同区域之间如何关联。视觉 Transformer 从图像中提取视觉特征,而文本编码器将词语转换为模型可以处理的数值表示。

在训练期间,这些模型可以从不同类型的监督中学习,包括定义精确物体边界的像素级掩码、粗略定位物体的边界框,以及描述图像中内容的图像级标签。使用不同类型的标注数据进行训练有助于模型捕捉细微的细节和更广泛的视觉概念。

在推理阶段,即模型实际用于进行预测时,PCS 遵循提示驱动的过程。用户通过文本描述、点或框等视觉暗示或示例图像提供引导。模型将提示和图像编码为共享的内部表示或嵌入,并识别与所描述概念对齐的区域。

然后,掩码解码器将这种共享表示转换为精确的像素级分割掩码。由于模型将视觉特征与语义含义联系起来,它即使在训练期间未明确包含某些概念时,也能对其进行分割。

此外,通常可以通过调整提示或添加额外的引导来细化输出,这有助于模型处理复杂或模糊的场景。这种迭代过程支持在部署期间进行实际优化。

可提示概念分割模型通常根据它们对之前未见过的概念的分割效果以及在不同场景下的表现稳健性来进行评估。基准测试通常关注掩码质量、泛化能力和计算效率,这反映了现实世界的部署要求。

Link to this sectionPCS 的现实用例#

接下来,让我们看看可提示概念分割已经在哪些领域得到应用并开始产生真正的实际影响。

Link to this section用于医学影像的灵活图像分割#

医学影像涉及许多生物结构、疾病和扫描类型,新的病例每天都在出现。传统的分割模型难以跟上这种多样性。

PCS 自然地契合这一领域,因为它允许临床医生描述他们想要查找的内容,而不是从一个简短、死板的列表中进行选择。通过文本短语或视觉提示,PCS 可用于直接分割器官或关注区域,而无需为每个新任务重新训练模型。这使得处理多样化的临床需求变得更加容易,减少了手动绘制掩码的需要,并且适用于多种影像类型。

一个很好的例子是 MedSAM-3,它适配了 SAM 3 架构以实现医学影像中的文本可提示 PCS。该模型可以使用明确的解剖和病理学术语进行提示,例如器官名称(如肝脏或肾脏)以及与病变相关的概念(如肿瘤或病灶)。给定提示后,模型会直接分割医学图像中相应的区域。

MedSAM-3 还集成了多模态大语言模型 (MLLM 或多模态 LLM),它们可以对文本和图像进行推理。这些模型在一种代理介入的设置中运行,结果经过迭代细化以提高在更具挑战性案例中的准确性。

用于医学图像中肿瘤文本提示分割的 MedSAM-3 流水线

图 3. 用于医学图像中肿瘤分割的 MedSAM-3 管线 (来源)

MedSAM-3 在 X 射线、MRI、CT、超声和视频数据中表现良好,突显了 PCS 如何在真实的临床环境中实现更灵活、更高效的医学影像工作流程。

Link to this section用于机器人手术和自动化的自适应分割#

机器人手术 依赖视觉系统来跟踪工具并理解快速变化的手术场景。仪器移动迅速,光照条件变化,新工具可能随时出现,这使得预定义的标签系统难以维护。

借助 PCS,机器人可以实时跟踪工具、引导摄像机并跟踪手术步骤。这减少了手动标注并使系统更容易适应不同的手术。外科医生或自动化系统可以使用“抓取器”、“手术刀”或“摄像工具”等文本提示来指示图像中应该分割的内容。

机器人手术过程中手术器械的分割

图 4. 机器人手术中所用手术仪器的分割 (来源)

Link to this section使用 Ultralytics YOLOE-26 进行开放词汇分割#

另一个与可提示概念分割相关且处于最前沿的有趣模型是我们的 Ultralytics YOLOE-26。我们的模型将开放词汇、提示驱动的分割引入了 Ultralytics YOLO 模型家族。

YOLOE-26 基于 Ultralytics YOLO26 架构构建,支持开放词汇实例分割。YOLOE-26 允许用户通过多种方式引导分割。

它支持文本提示,其中简短、视觉对齐的短语可以指定目标物体;同时也支持视觉提示,提供基于图像线索的额外引导。此外,YOLOE-26 包括用于零样本推理的无提示模式,模型可以在不需要用户提示的情况下检测和分割来自内置词汇表的物体。

YOLOE-26 非常适合视频分析、机器人感知和边缘系统等应用,在这些应用中,物体类别可能会发生变化,但低延迟和可靠的吞吐量仍然至关重要。它对于数据标注和数据集整理也特别有用,因为它通过自动化标注过程的一部分来简化工作流程。

Link to this section可提示概念分割的优缺点#

以下是使用可提示概念分割的一些主要好处:

  • 更快的迭代和原型设计: 可以通过更改提示而不是重建数据集或重新训练模型来快速测试新的分割任务,这加快了实验和开发的速度。
  • 跨领域的适应性: 同一个 PCS 模型通常可以应用于不同的领域,如医学影像、机器人技术或视频分析,且对工作流程的更改最小。
  • 交互式细化: 用户可以迭代地调整提示或添加引导以改进结果,从而更容易处理模糊的场景或边缘情况,而无需重新训练。

虽然 PCS 有明显的优势,但以下是一些需要考虑的局限性:

  • 提示敏感性: 编写或提供提示方式的微小变化可能会影响输出。过于模糊或过于具体的提示可能会导致不完整或不正确的分割。
  • 较不可预测的行为: 由于模型解释的是提示而不是从固定标签中选择,因此结果在不同场景和输入之间可能会有较大变化,这对受严格控制的管线来说可能是一个问题。
  • 模糊的概念解释: 一些概念是主观的或定义不明确的,这可能导致用户之间或跨图像之间的分割结果不一致。
  • 对于高度特定目标的可靠性有限: 基于提示的模型通常对于狭义定义、实例特定的任务(例如缺陷检测)的可靠性较低,因为这些任务需要对细微特征进行精确、一致的识别。

Link to this section在可提示分割和传统分割之间做出选择#

在探索可提示分割时,你可能会想知道它最适合哪些应用,以及何时像 YOLO26 这样的传统计算机视觉模型更适合你试图解决的问题。可提示分割适用于一般物体,但并不适合需要非常精确和一致结果的用例。

缺陷检测就是一个很好的例子。在制造业中,缺陷通常非常微小且细微,例如小划痕、凹痕、错位或表面不规则。它们还会根据材料、光照和生产条件而发生很大变化。

这些问题很难用简单的提示来描述,通用模型更难可靠地检测到它们。总的来说,基于提示的模型往往会漏掉缺陷或产生不稳定的结果,而专门针对缺陷数据训练的模型对于现实世界的检测系统要可靠得多。

Link to this section关键要点#

可提示概念分割使视觉系统更容易适应现实世界,即新的物体和想法不断出现的世界。用户无需被锁定在固定的标签中,只需描述他们想要分割的内容,让模型完成其余的工作,这节省了时间并减少了手动工作。虽然它仍然存在局限性,但 PCS 已经在改变分割在实践中的应用方式,并很可能成为未来视觉系统的核心部分。

通过访问我们的 GitHub 仓库 并加入我们的 社区 来探索更多关于 AI 的信息。查看我们的解决方案页面,了解 机器人中的 AI制造业中的计算机视觉。探索 我们的许可选项 以立即开始使用视觉 AI!

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅