遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Visual Prompting

探索通过点和框引导 AI 模型的视觉提示。了解 Ultralytics YOLO 和 SAM 如何实现精确的分割和更快速的数据标注。

视觉提示是一种新兴的计算机视觉技术,用户可以通过提供空间或视觉线索(如点、边界框或涂鸦)来引导 AI 模型关注图像中的特定对象或区域。与主要依赖文本描述的传统 提示工程 (prompt engineering) 不同,视觉提示允许以更精确、更直观的方式与 人工智能 (AI) 系统进行交互。这种方法利用现代 基础模型 (foundation models) 的能力来执行分割和检测等任务,而无需进行大量的重新训练或使用庞大的标记数据集。通过有效地“指向”重要内容,用户可以即时调整通用模型以适应新任务,从而弥合人类意图与机器感知之间的鸿沟。

Link to this section视觉提示的机制#

从本质上讲,视觉提示的工作原理是将空间信息直接注入到模型的处理流程中。当用户点击某个对象或绘制一个框时,这些输入会被转换为基于坐标的嵌入 (embeddings),神经网络将这些嵌入与图像特征进行整合。这一过程是 Segment Anything Model (SAM) 等交互式架构的核心,模型会根据几何提示来预测掩码 (masks)。

视觉提示的灵活性支持多种交互类型:

  • 点提示 (Point Prompts): 用户点击特定像素以指示目标对象。模型随后会将此选择扩展到整个对象边界。
  • 框提示 (Box Prompts): 绘制 边界框 (bounding box) 可提供粗略的定位,指示模型分割或分类该区域内包含的所有内容。
  • 涂鸦提示 (Scribble Prompts): 在对象上绘制的手绘线条有助于消除复杂场景中的歧义,例如对象重叠或具有相似纹理的情况。

CVPR 2024 上展示的最新研究强调了视觉提示如何显著减少 数据标注 (data annotation) 所需的时间,因为人工标注员可以通过简单的点击实时纠正模型预测,而无需手动追踪多边形。

Link to this section视觉提示与文本提示的对比#

虽然这两种技术都旨在引导模型行为,但区分视觉提示与基于文本的方法非常重要。文生图 (Text-to-image) 生成或零样本检测依赖 自然语言处理 (NLP) 来解释语义描述(例如,“找到那辆红色的车”)。然而,语言在描述精确的空间位置或抽象形状时可能会产生歧义或显得力不从心。

视觉提示通过将指令直接锚定在像素空间中解决了这种歧义。例如,在 医学图像分析 (medical image analysis) 中,放射科医生点击可疑结节比试图通过文本描述其确切坐标和不规则形状要准确得多。通常,最强大的工作流程是结合这两种方法——使用文本进行语义过滤,并使用视觉提示进行空间精确控制,这种概念被称为 多模态学习 (multi-modal learning)

Link to this section实际应用#

视觉提示的适应性促使其在各行各业中得到迅速采用:

  • 交互式医学诊断: 医生使用视觉提示工具在 MRI 扫描中分离肿瘤或器官。只需点击感兴趣区域,他们就能立即生成 3D 体积测量数据,从而辅助精确的 肿瘤检测 (tumor detection) 和手术规划。
  • 智能照片编辑: 在 Adobe Photoshop 等消费级软件或移动应用中,视觉提示驱动了“魔术选择”工具。用户可以点击某个人物或物体来删除背景或应用定向滤镜,无需手动遮罩技能即可利用底层的 实例分割 (instance segmentation) 技术。
  • 机器人操作:AI 在机器人技术中的应用 (AI in Robotics) 中,可以通过视觉界面指示机器人拾取特定物品。操作员点击机器人摄像机画面中的物体,提供一个视觉提示,机器人将其转换为抓取坐标,从而促进仓库中的 人机协同 (human-in-the-loop) 自动化。

Link to this section使用 Ultralytics 进行实现#

Ultralytics 生态系统支持视觉提示工作流程,特别是通过 FastSAM 和 SAM 等模型。这些模型允许开发人员以编程方式传递点或框坐标来检索分割掩码。

以下示例演示了如何使用 ultralytics 包将点提示应用于图像,指示模型分割位于特定坐标处的对象。

from ultralytics import SAM

# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")

# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])

# Display the segmented result
results[0].show()

Link to this section提升模型敏捷性#

视觉提示代表了向“可提示”计算机视觉的转变,模型不再是静态的“黑盒”,而是交互式工具。这种能力对于 主动学习 (active learning) 循环至关重要,在循环中模型可以通过整合用户反馈实现快速改进。

对于希望将这些功能集成到生产环境中的开发人员,Ultralytics Platform 提供了管理数据集和部署能够处理动态输入的模型的工具。随着研究的进展,我们期待看到视觉提示与 大语言模型 (LLM) 之间更紧密的集成,从而使系统能够像处理文本一样流畅地推理视觉输入。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅