深圳Yolo 视觉
深圳
立即加入

探索可提示概念分割,了解它与传统方法的区别,以及YOLOE-26等相关模型如何实现开放词汇能力。

使用 Ultralytics 扩展您的计算机视觉项目

开始使用

视觉AI正迅速发展,并被广泛应用于分析现实世界环境中的图像和视频。例如,从交通管理系统到零售分析的各种应用都正在与计算机视觉模型集成。

在许多此类应用中,视觉模型(例如目标 detect 模型)经过训练,可以识别预定义的对象集,包括车辆、人员和设备。在训练过程中,这些模型会看到许多带标签的示例,以便它们学习每个对象的外观以及如何将其与场景中的其他对象区分开来。

对于 segment 任务,模型更进一步,在这些对象周围生成精确的像素级轮廓。这使得系统能够精确理解图像中每个对象的位置。

只要系统只需要识别其训练过的内容,这种方法就有效。然而,在现实世界环境中,这种情况很少见。 

视觉场景通常是动态的。新的对象和视觉概念不断出现,条件发生变化,用户经常希望 segment 那些不属于原始训练设置的对象。

这些局限性在 segment 方面尤为明显。随着视觉AI的不断发展,对更灵活的 segment 模型的需求日益增长,这些模型能够适应新概念而无需重复训练。这就是为什么可提示概念分割(PCS)受到关注的原因。

用户无需依赖固定的对象类别列表,可以使用文本、视觉提示或示例图像来描述他们想要 segment 的内容。这些模型随后可以识别并 segment 所有与所描述概念匹配的区域,即使该概念在训练期间未明确包含。

在本文中,我们将探讨可提示概念分割的工作原理、它与传统方法的区别以及它目前的应用场景。

什么是可提示概念segment?

在大多数情况下,segment 模型经过训练以识别少量对象类型。当视觉AI系统只需要 detect 和 segment 特定对象集时,这种方法效果很好。

然而,在现实世界应用中,视觉场景是动态的。新对象不断出现,任务要求不断变化,用户经常需要 segment 那些未包含在原始标签集中的概念。支持这些情况通常意味着收集新的高质量数据和标注,并重新训练模型,这会增加成本并减缓部署速度。

可提示概念分割通过让用户告诉模型要寻找什么,而不是从固定的标签列表中选择,从而解决了这个问题。用户描述他们正在寻找的对象或概念,模型会高亮显示图像中所有匹配的区域。这使得将用户意图与图像中的实际像素联系起来变得更加容易。

图1. 概念提示在 segment 中的应用一览 (来源)

使用不同类型的提示引导 segment

支持可提示概念分割的模型具有灵活性,因为它们可以接受不同类型的输入。换句话说,有不止一种方式可以告诉模型要寻找什么,例如文本描述、视觉提示或通过示例图像。

以下是对每种方法的详细介绍:

  • 文本提示:简短的短语,如“校车”或“肿瘤区域”,可用于描述要 segment 的概念。模型会解释词语的含义并识别匹配区域。
  • 视觉提示:这些提示使用图像内的点、框或粗略草图作为线索。这些线索指导模型查找位置并帮助形成最终边界。
  • 图像范例: 参考图像或小块裁剪图像代表了感兴趣的概念。模型搜索视觉上相似的区域,并根据视觉外观对它们进行 segment。

PCS与传统 segment 的区别

在我们深入探讨可提示概念分割的工作原理之前,我们首先将其与各种传统的目标 segment 方法进行比较。

PCS支持开放词汇和提示驱动的模型。它可以通过提示处理新概念,但传统 segment 无法做到。传统 segment 方法有几种不同类型,每种都有其自身的假设和局限性。

以下是几种主要传统 segment 类型的一瞥:

  • 语义分割: 图像中的每个像素都被标记为道路、建筑物或人物等类别的一部分。具有相同标签的所有像素被分组在一起,因此模型不会分离单个对象实例。
  • 实例分割: 模型识别并segment单个对象,因此两个人或两辆车被视为独立的项。 
  • 全景分割: 这种技术结合了语义分割和实例分割,以提供场景的完整视图,涵盖背景区域和单个对象。 

所有这些方法都依赖于预定义的对象类别列表。它们在该范围内表现良好,但对于范围之外的概念处理不佳。当需要分割一个新的特定对象时,通常需要额外的训练数据和模型微调。

PCS旨在改变这一点。它不再局限于预定义类别,而是允许你在推理时描述想要 segment 图像中的内容。

PCS模型的发展

接下来,我们将探讨分割模型是如何演进到可提示概念分割的。

一个标志着 segmentation 领域转变的流行基础模型是SAM,即Segment Anything Model。它于2023年推出。SAM不再依赖预定义的对象类别,而是允许用户通过简单的视觉提示(如点或边界框)来引导 segmentation。 

借助 SAM,用户不再需要选择标签。他们只需指示物体所在的位置,模型就会为其生成掩码。这使得分割更加灵活,但用户仍然需要告诉模型关注的区域。 

SAM 2于2024年发布,在此基础上通过处理更复杂的场景并将可提示segmentation扩展到视频领域。它在不同光照条件、物体形状和运动下提高了鲁棒性,同时仍主要依靠视觉提示来引导segmentation。

SAM 3 模型是此次演进的最新一步。它于去年发布,是一个统一模型,结合了视觉理解和语言指导,从而在图像和视频分割任务中实现了行为一致性。 

借助 SAM 3,用户不再局限于指向或绘制提示。相反,他们可以使用文本描述想要分割的内容,模型会在图像或视频帧中搜索与该描述匹配的区域。 

分割由概念而非固定的物体类别引导,支持跨不同场景和时间的开放词汇使用。事实上,SAM 3 在一个庞大的、学习到的概念空间上运行,该空间基于从 Wikidata 等来源派生的本体,并通过大规模训练数据进行扩展。

图2. SAM 3 提示并分割单张图像的示例 (来源)

与主要依赖几何提示的早期版本相比,SAM 3 代表着迈向更灵活、概念驱动的分割的一步。这使其更适合实际应用,在这些应用中,感兴趣的物体或概念可能会变化,并且无法总是预先定义。

探索可提示视觉 segmentation 的工作原理

那么,可提示概念分割是如何工作的?它建立在大型预训练视觉模型和视觉语言模型之上,这些模型在海量图像集合上进行训练,在许多情况下,还包括配对文本。这种训练使它们能够学习通用视觉模式和语义含义。

大多数 PCS 模型采用基于 Transformer 的架构,它们一次性处理整个图像,以理解不同区域之间的关系。视觉 Transformer 从图像中提取视觉特征,而文本编码器将词语转换为模型可以处理的数值表示。

在训练过程中,这些模型可以从不同类型的监督中学习,包括定义精确物体边界的像素级掩码、大致定位物体的边界框,以及描述图像中内容的图像级标签。使用不同类型的标注数据进行训练有助于模型捕捉精细细节和更广泛的视觉概念。

在推理时,即模型实际用于进行预测时,PCS 遵循提示驱动的过程。用户通过文本描述、视觉提示(如点或框)或示例图像提供指导。模型将提示和图像编码成共享的内部表示或嵌入,并识别与所描述概念对齐的区域。

掩码解码器随后将这种共享表示转换为精确的像素级 segmentation 掩码。由于模型将视觉特征与语义意义关联起来,即使新概念未在训练期间明确包含,模型也能够对其进行 segment。

此外,通常可以通过调整提示或添加额外指导来优化输出,这有助于模型处理复杂或模糊的场景。这种迭代过程支持在部署期间进行实际优化。

可提示概念分割模型通常根据它们分割以前未见概念的能力以及在不同场景下的鲁棒性表现进行评估。基准测试通常关注掩码质量、泛化能力和计算效率,这反映了实际部署要求。

PCS 的实际应用案例

接下来,我们来看看可提示概念分割已在哪些领域得到应用并开始产生实际影响。

用于医学影像的灵活图像分割

医学影像涉及许多生物结构、疾病和扫描类型,新病例每天都在出现。传统分割模型难以应对这种多样性。 

PCS 自然地契合这一领域,因为它允许临床医生描述他们想要查找的内容,而不是从一个简短、固定的列表中选择。借助文本短语或视觉提示,PCS 可以直接用于分割器官或关注区域,无需为每个新任务重新训练模型。这使得处理多样化的临床需求变得更容易,减少了手动绘制掩码的需求,并且适用于多种影像类型。

一个很好的例子是MedSAM-3,它采用了 SAM 3 架构,用于医学影像中的文本可提示 PCS。该模型可以通过明确的解剖学和病理学术语进行提示,例如肝脏或肾脏等器官名称,以及肿瘤或病变等与病灶相关的概念。给出提示后,模型直接分割医学图像中对应的区域。

MedSAM-3 还集成了多模态大语言模型(MLLMs 或 multimodal LLMs),它们可以对文本和图像进行推理。这些模型在“代理在环”设置中运行,结果通过迭代进行细化,以提高在更具挑战性病例中的准确性。

图3. MedSAM-3 用于医学图像中文本提示肿瘤分割的管线 (来源)

MedSAM-3 在X射线、MRI、CT、超声和视频数据方面表现良好,突出了 PCS 如何能够在实际临床环境中实现更灵活、高效的医学影像工作流程。

用于机器人手术和自动化的自适应segmentation

机器人手术依赖视觉系统来 track 工具并理解快速变化的 surgical 场景。器械移动迅速,光照条件多变,新工具随时可能出现,这使得预定义标签系统难以维护。

借助 PCS,机器人可以 track 工具、引导相机并实时跟踪手术步骤。这减少了手动标注,并使系统更容易适应不同的手术程序。外科医生或自动化系统可以使用文本提示,例如“抓手”、“手术刀”或“相机工具”,来指示图像中应分割的内容。

图4. 机器人手术中使用的手术器械分割 (来源)

借助 Ultralytics YOLOE-26 实现开放词汇分割

另一个与可提示概念分割相关的有趣且领先的模型是我们的 Ultralytics YOLOE-26。我们的模型将开放词汇、提示驱动的分割引入了 Ultralytics YOLO 模型家族。

YOLOE-26 基于 Ultralytics YOLO26 架构构建,支持开放词汇实例分割。YOLOE-26 允许用户通过多种方式引导分割。 

它支持文本提示,其中简短、视觉关联的短语可以指定目标对象;也支持视觉提示,根据图像线索提供额外指导。此外,YOLOE-26 还包含一个无提示模式,用于零样本推理,在该模式下,模型无需用户提示即可从内置词汇中 detect 和 segment 对象。

YOLOE-26 非常适用于视频分析、机器人感知和边缘系统等应用,在这些应用中,对象类别可能会发生变化,但低延迟和可靠的吞吐量仍然至关重要。它对于数据标注和数据集管理也特别有用,因为它通过自动化部分标注过程来简化工作流程。

可提示概念segmentation的优点和缺点

以下是使用可提示概念分割的一些主要优势:

  • 更快的迭代和原型开发:通过更改提示而不是重建数据集或重新训练模型,可以快速测试新的 segment 任务,从而加快实验和开发速度。
  • 跨领域适应性: 相同的 PCS 模型通常可以应用于不同的领域,例如医学成像、机器人技术或视频分析,对工作流程的改动最小。
  • 交互式优化:用户可以迭代调整提示或添加指导以改进结果,从而更容易处理模糊场景或边缘情况,而无需重新训练。

尽管 PCS 具有明显优势,但仍有一些局限性需要考虑:

  • 提示敏感性:提示的编写或提供方式的微小变化都可能影响输出。过于模糊或过于具体的提示可能导致不完整或不正确的segmentation。
  • 行为可预测性较低:由于模型解释提示而非从固定标签中选择,结果在不同场景和输入之间可能差异更大,这对于严格控制的流程可能是一个问题。
  • 模糊概念解释:一些概念是主观的或定义松散的,这可能导致用户之间或跨图像的segmentation结果不一致。
  • 对高度特定目标的可靠性有限:基于提示的模型对于狭义定义、实例特定的任务(例如缺陷detect)通常可靠性较低,这类任务需要精确、一致地识别细微特征。

可提示分割与传统分割的选择

在探索可提示分割时,您可能会想知道它最适合哪些应用,以及何时像 YOLO26 这样的传统计算机视觉模型更适合您尝试解决的问题。可提示分割适用于一般对象,但对于需要非常精确和一致结果的用例来说,它并不适用。

缺陷检测就是一个很好的例子。在制造业中,缺陷通常微小而细微,例如微小划痕、凹痕、未对准或表面不规则。它们还会根据材料、光照和生产条件而广泛变化。 

这些问题难以用简单的提示来描述,通用模型也更难可靠地 detect。总的来说,基于提示的模型容易漏检缺陷或产生不稳定结果,而专门针对缺陷数据训练的模型对于实际检测系统来说则可靠得多。

主要要点

可提示概念分割使视觉系统更容易适应现实世界,因为新对象和新概念不断涌现。用户无需局限于固定标签,只需描述他们想要 segment 的内容,然后让模型完成其余工作,这节省了时间并减少了人工工作。尽管它仍有局限性,但 PCS 已经改变了分割在实践中的使用方式,并有可能成为未来视觉系统的核心组成部分。

访问我们的 GitHub 仓库 并加入我们的 社区,探索更多关于 AI 的内容。查看我们的解决方案页面,了解 机器人中的 AI制造业中的计算机视觉。了解 我们的许可选项,立即开始使用视觉 AI!

让我们一起共建AI的未来!

开启您的机器学习未来之旅