敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

提示工程

掌握提示工程的艺术,指导 LLM 等 AI 模型,在内容、客户服务等领域实现精确、高质量的输出。

Prompt 工程是设计有效输入(prompt)的艺术和科学,旨在引导人工智能 (AI)模型,特别是大型语言模型 (LLM),生成所需的输出。它类似于成为一名与 AI 沟通的熟练沟通者,准确地知道该说什么以及如何说才能获得最佳响应。这种实践至关重要,因为AI 模型输出的性能、相关性和质量对查询的构建方式高度敏感。有效的 prompt 工程使用户能够利用强大的基础模型的全部潜力来完成各种任务。

提示工程如何工作

提示工程的核心是构建一个输入,为模型提供清晰且充分的上下文。虽然一个简单的问题可以产生一个基本的答案,但一个精心设计的提示可以控制语气、格式和复杂性。高级提示的关键组成部分可以包括:

  • 指令: 一个清晰而具体的指令,告诉模型要执行什么任务(例如,“用三个要点总结以下文章”)。
  • 语境:提供模型应该用来告知其响应的相关背景信息或数据。
  • 角色设定:为 AI 分配一个角色,从而影响输出的语气和风格(例如,“扮演一位专业的金融分析师”)。
  • 格式: 指定所需的输出结构,例如列表、JSON对象或特定的写作风格。
  • 示例:包括所需输入和输出格式的示例(一种称为小样本学习的技术)有助于指导模型的响应。有关这些技术的综合资源可以在Prompting Guide中找到。

实际应用

  1. 客户支持自动化: 为了确保品牌一致性和准确性,公司可以使用提示工程来指导其支持聊天机器人。提示词可以指示人工智能采用友好和乐于助人的语气,使用内部知识库来回答产品问题,并定义在何时将对话升级给人工客服的明确协议。这控制了人工智能的行为,防止其提供不正确的信息或以不符合品牌的方式与客户互动。

  2. 创意内容生成: 在文本到图像模型中,如MidjourneyOpenAI的DALL-E 3,提示词是创作的主要工具。一个简单的提示词,如“一辆汽车的图片”,会产生一个通用的结果。然而,一个详细的提示词,如“一辆20世纪60年代的红色老爷跑车在日落时分飞驰在沿海公路上,照片级写实风格,电影灯光,8K分辨率”,则提供了关于主题、场景、风格和质量的具体指令,从而产生一张高度定制且视觉效果惊艳的图像。

在计算机视觉中的相关性

虽然提示工程起源于自然语言处理 (NLP),但它在计算机视觉 (CV)中也越来越重要。这是由可以同时处理文本和图像的多模态模型的发展所驱动的。像CLIP和像YOLO-World这样的开放词汇检测器可以基于任意文本描述执行像对象检测这样的任务。对于这些模型,制作有效的文本提示(例如,“检测所有‘自行车’但忽略‘摩托车’”),是一种提示工程形式,对于指导这些视觉语言模型至关重要。Ultralytics HUB等平台促进了与各种模型的交互,通过界面定义任务可以从提示工程原则中受益。

Prompt 工程与相关概念

区分提示工程与其他机器学习概念非常重要:

  • 微调(Fine-Tuning):指通过在新数据集上继续训练过程来更新模型的权重。相比之下,提示工程(Prompt engineering)不改变模型本身,而是在推理时指导现有模型的行为。
  • Prompt Tuning(提示调优): 作为一种参数高效微调(PEFT)方法,Prompt Tuning 涉及学习一小组“软提示”嵌入(embeddings),这些嵌入被添加到输入的前面。它通过训练自动创建提示,而 Prompt 工程则是手动创建基于文本的“硬提示”的过程。
  • 思维链 (CoT) 提示: CoT 是一种特定的提示工程技术,其中将诸如“逐步思考”之类的指令添加到提示中。这鼓励模型将复杂问题分解为中间推理步骤,通常会产生更准确的结果,如原始的Google AI 研究论文中所述。
  • Prompt 链接(Prompt Chaining):此技术涉及将复杂的任务分解为多个顺序 prompt,其中一个步骤的输出是下一步的输入。Prompt 工程是有效设计每个单独 prompt 的更广泛的实践。诸如 LangChain 之类的框架旨在编排此类链。
  • 检索增强生成 (RAG): RAG 是一个系统,它通过首先从外部知识库检索相关数据来增强提示。在 RAG 系统中,提示工程至关重要,可以正确制定初始搜索查询和最终提示,从而将用户的问题与检索到的信息相结合。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板