掌握 AI 和计算机视觉领域的提示工程。学习如何优化大型语言模型 (LLMs) 和 Ultralytics YOLO26 等多模态模型的输入,以获得卓越成果。
提示工程是设计、完善和优化输入文本的战略过程,以引导 人工智能 (AI) 模型生成准确、相关和高质量的输出。最初随着 GPT-4 等 大型语言模型 (LLMs) 的兴起而受到关注,这门学科已发展成为与包括文本、图像和视频在内的各种模态的 生成式AI 系统交互的关键技能。提示工程不是通过重新训练来改变底层的 模型权重,而是通过以系统最能理解的方式构建任务,利用模型的现有知识,弥合人类意图与机器执行之间的鸿沟。
其核心在于,提示工程依赖于理解基础模型如何处理上下文和指令。一个精心构建的提示通过提供明确的约束、期望的输出格式(例如 JSON 或 markdown)以及相关背景信息来减少歧义。高级实践者利用少样本学习等技术,在提示中提供少量输入-输出对示例,以演示所需模式。
另一种强大的策略是思维链提示,它鼓励模型将复杂的推理任务分解为中间步骤。这显著提高了逻辑密集型查询的性能。此外,优化上下文窗口(模型一次可处理的文本量限制)的使用对于在长时间交互中保持连贯性至关重要。外部资源,例如OpenAI 的提示设计指南,强调了迭代优化对于有效处理边缘情况的重要性。
虽然提示工程通常与文本相关,但它在 计算机视觉 (CV) 中日益重要。现代 多模态模型 和开放词汇检测器,例如 YOLO-World,允许用户使用 自然语言处理 (NLP) 来定义 detect 目标,而非预定义的数字类别ID。
在这种情况下,“prompt”是对象的文本描述(例如,“戴红色头盔的人”)。这种能力,被称为零样本学习,通过利用视觉特征和语义嵌入之间的学习关联,使系统能够detect未经明确训练的对象。对于类别固定的高速生产环境,开发人员最终可能会从提示模型过渡到像YOLO26这样高效的再训练模型,但提示工程仍然是快速原型设计和灵活性的关键。
提示工程通过实现灵活和智能的自动化,在不同行业中创造价值:
下面的示例演示了如何使用
ultralytics 包。我们在此使用 YOLO-World 模型,该模型接受文本提示以动态定义要查找的对象,这与标准模型(如)形成对比。
YOLO26 使用固定类别列表的。
from ultralytics import YOLO
# Load a YOLO-World model capable of interpreting text prompts
model = YOLO("yolov8s-world.pt")
# Apply prompt engineering to define custom classes dynamically
# The model maps these text descriptions to visual features
model.set_classes(["person in safety vest", "forklift", "blue hardhat"])
# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results - the model only detects objects matching the prompts
results[0].show()
为有效部署通过 Ultralytics Platform 的AI解决方案,区分提示工程与类似的优化技术至关重要:

开启您的机器学习未来之旅