Chain-of-Thought Prompting
探索思维链 (CoT) 提示以增强 AI 推理能力。了解将任务拆解为逻辑步骤如何改进 Ultralytics YOLO26 的代码生成。
思维链 (CoT) 提示是提示工程中的一项先进技术,它使大语言模型 (LLM) 能够通过将复杂的推理任务分解为中间逻辑步骤来解决问题。CoT 并不要求模型直接提供最终答案,而是鼓励系统生成模仿人类解决问题过程的“思维脉络”。这种逐步推理显著提升了模型在处理算术、符号逻辑和常识推理任务时的表现,并改变了我们与 人工智能 (AI) 系统的交互方式。
Link to this section推理机制#
标准语言模型在处理多步问题时往往会遇到困难,因为它们试图在单次处理中将输入直接映射到输出。这种“黑盒”方法可能导致错误,特别是当逻辑跨度太大时。思维链提示通过在输入问题和最终输出之间插入推理步骤来解决这一问题。
此过程通常以两种方式运作:
- 零样本 CoT (Zero-Shot CoT): 用户在提示词中附加一个简单的触发短语,例如“让我们一步步思考”。这无需具体示例即可激活模型的潜在推理能力。
- 少样本 CoT (Few-Shot CoT): 提示词中包含了一些问题与对应逐步解决方案的示例(范例)。这利用 少样本学习 向模型展示在尝试新问题之前如何构建逻辑。
通过显式生成中间推理过程,模型拥有了更多自我修正的机会,并提高了得出结论过程的透明度。这对于减少 LLM 中的幻觉 至关重要,否则模型可能会自信地陈述错误事实。
Link to this section实际应用#
虽然思维链提示最初是为基于文本的逻辑开发的,但当它与计算机视觉和代码生成等其他 AI 领域相结合时,具有强大的应用潜力。
Link to this section增强计算机视觉的代码生成#
开发人员使用 CoT 来指导 LLM 编写复杂的软件脚本,以完成如 目标检测 等任务。与使用“编写查找汽车的代码”这种模糊请求不同,CoT 提示可能会这样构建请求:“第一,导入必要的库。第二,加载预训练模型。第三,定义图像源。最后,运行预测循环。”这种结构化的方法确保了针对 YOLO26 等模型生成的代码在语法和逻辑上都是正确的。
Link to this section自主决策#
在 自动驾驶汽车 领域,系统必须处理视觉数据并做出安全关键决策。思维链方法允许系统表达其逻辑:“我检测到人行横道附近有一名行人。行人正面向道路。交通灯对我而言是绿色的,但行人可能会走出来。因此,我将减速并准备停车。”这使得 AI 的决策变得可解释,并符合 可解释 AI (XAI) 的原则。
Link to this section实际应用中的思维链#
虽然 CoT 主要是一种自然语言技术,但它可以通过编程实现,以确保与视觉模型进行一致的交互。下面的 Python 示例演示了开发人员如何构建一个提示词,以指导 LLM(此处为模拟)为 Ultralytics Platform 生成有效的推理代码。
# Example of structuring a Chain-of-Thought prompt for an LLM
# This prompt guides the model to write a valid YOLO26 inference script
cot_prompt = """
Task: Write a Python script to detect objects using YOLO26.
Chain of Thought:
1. Import the YOLO class from the 'ultralytics' library.
2. Load the 'yolo26n.pt' model weights (the latest nano model).
3. Load a sample image using a URL or local path.
4. Run the predict() function and save the results.
Based on these steps, generate the Python code below:
"""
# In a real application, you would send 'cot_prompt' to an LLM API
print(f"Structured Prompt for LLM:\n{cot_prompt}")Link to this section区分相关概念#
区分思维链提示与 机器学习 (ML) 领域中类似的术语非常重要:
- 提示词链 (Prompt Chaining): 这涉及连接多个独立的模型调用,其中一个步骤的输出成为下一步的输入。CoT 在“单个”提示词内发生以引发内部推理,而提示词链则跨多个交互编排工作流。
- 检索增强生成 (RAG): RAG 专注于获取外部数据(如文档或数据库)来为模型的知识提供基础。CoT 专注于“推理过程”本身。通常,两者会结合使用——利用 RAG 获取事实,并利用 CoT 对其进行推理。
- 提示词微调 (Prompt Tuning): 这是一种参数高效的微调方法,在训练过程中优化连续软提示(向量)。CoT 是一种在 实时推理 时应用、不改变 模型权重 的离散自然语言策略。
Link to this section未来展望#
随着 基础模型 的不断演进,思维链提示正成为释放其全部潜力的标准最佳实践。来自 Google DeepMind 等团队的研究表明,随着模型规模的扩大,它们执行 CoT 推理的能力会显著提高。这一演进正为更可靠、能够处理从医疗保健到 智能制造 等各行业复杂工作流的自主代理铺平道路。






