深圳Yolo 视觉
深圳
立即加入
词汇表

提示工程

掌握 AI 和计算机视觉领域的提示工程。学习如何优化大型语言模型 (LLMs) 和 Ultralytics YOLO26 等多模态模型的输入,以获得卓越成果。

提示工程是设计、完善和优化输入文本的战略过程,以引导 人工智能 (AI) 模型生成准确、相关和高质量的输出。最初随着 GPT-4 等 大型语言模型 (LLMs) 的兴起而受到关注,这门学科已发展成为与包括文本、图像和视频在内的各种模态的 生成式AI 系统交互的关键技能。提示工程不是通过重新训练来改变底层的 模型权重,而是通过以系统最能理解的方式构建任务,利用模型的现有知识,弥合人类意图与机器执行之间的鸿沟。

有效提示的机制

其核心在于,提示工程依赖于理解基础模型如何处理上下文和指令。一个精心构建的提示通过提供明确的约束、期望的输出格式(例如 JSON 或 markdown)以及相关背景信息来减少歧义。高级实践者利用少样本学习等技术,在提示中提供少量输入-输出对示例,以演示所需模式。

另一种强大的策略是思维链提示,它鼓励模型将复杂的推理任务分解为中间步骤。这显著提高了逻辑密集型查询的性能。此外,优化上下文窗口(模型一次可处理的文本量限制)的使用对于在长时间交互中保持连贯性至关重要。外部资源,例如OpenAI 的提示设计指南,强调了迭代优化对于有效处理边缘情况的重要性。

在计算机视觉中的相关性

虽然提示工程通常与文本相关,但它在 计算机视觉 (CV) 中日益重要。现代 多模态模型 和开放词汇检测器,例如 YOLO-World,允许用户使用 自然语言处理 (NLP) 来定义 detect 目标,而非预定义的数字类别ID。

在这种情况下,“prompt”是对象的文本描述(例如,“戴红色头盔的人”)。这种能力,被称为零样本学习,通过利用视觉特征和语义嵌入之间的学习关联,使系统能够detect未经明确训练的对象。对于类别固定的高速生产环境,开发人员最终可能会从提示模型过渡到像YOLO26这样高效的再训练模型,但提示工程仍然是快速原型设计和灵活性的关键。

实际应用

提示工程通过实现灵活和智能的自动化,在不同行业中创造价值:

  • 动态视觉分析:零售AI 中,店长使用基于提示的视觉模型来搜索特定商品,无需技术干预。系统可以被提示 track “空货架”一天,第二天 track “错放商品”。这种灵活性使企业能够立即根据季节性趋势调整其 目标检测 系统。
  • 自动化内容创作:营销团队依赖详细的提示来指导文本到图像生成器,如Stable DiffusionMidjourney。通过设计指定光照、艺术风格和构图的提示,设计师可以快速生成视觉资产。
  • 智能知识检索:在客户支持中,工程师设计“系统提示”,指导聊天机器人仅使用经过验证的公司数据来回答查询。这是检索增强生成 (RAG)的关键组成部分,确保AI保持有益的形象,同时避免大型语言模型中的幻觉

利用Ultralytics实施

下面的示例演示了如何使用 ultralytics 包。我们在此使用 YOLO-World 模型,该模型接受文本提示以动态定义要查找的对象,这与标准模型(如)形成对比。 YOLO26 使用固定类别列表的。

from ultralytics import YOLO

# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")

# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])

# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results - the model only detects objects matching the prompts
results[0].show()

区分相关概念

为有效部署通过 Ultralytics Platform 的AI解决方案,区分提示工程与类似的优化技术至关重要:

  • 提示工程 vs. 提示微调提示工程涉及手动构建自然语言输入。相比之下,提示微调是一种参数高效微调 (PEFT)方法,它在训练阶段学习“软提示”(连续向量嵌入)。这些软提示是对人类用户不可见的数学优化。
  • 提示工程 vs. 微调微调使用特定的训练数据集永久更新模型的权重,使其专门用于某项任务。提示工程不改变模型本身;它只在实时推理期间优化输入。
  • 提示工程 vs. 提示注入提示工程是建设性的,而提示注入则是一种安全漏洞,恶意输入会操纵模型忽略其安全约束。确保AI安全需要对这种对抗性提示进行强有力的防御。

让我们一起共建AI的未来!

开启您的机器学习未来之旅