深圳Yolo 视觉
深圳
立即加入
词汇表

思维链提示

Explore how Chain-of-Thought prompting enhances AI reasoning. Learn to use CoT for complex tasks, from LLM logic to generating [YOLO26](https://docs.ultralytics.com/models/yolo26/) code.

链式推理(CoT)提示是一种先进的提示工程技术,通过将复杂推理任务分解为中间逻辑步骤,使大型语言模型(LLMs)能够解决复杂问题。与要求模型直接给出最终答案不同,CoT鼓励系统生成模拟人类解题过程的"思维链条"。 这种循序渐进的推理方式显著提升了算术运算、符号逻辑和常识推理等任务的处理能力,彻底改变了我们与人工智能(AI)系统的交互方式。

推理的机制

标准语言模型在处理多步问题时常会遇到困难,因为它们试图通过单次处理将输入直接映射到输出。这种"黑箱"方法容易导致错误,尤其当逻辑跳跃幅度过大时。链式推理提示法通过在输入问题与最终输出之间插入推理步骤来解决这一问题。

该过程通常通过两种方式实现:

  • 零样本推理:用户在提示词后添加简单的触发短语(如"让我们一步步思考"),即可激活模型的潜在推理能力,无需提供具体示例。
  • 少样本知识迁移(Few-Shot CoT):提示包含若干问题示例(范例)及其分步解答。该方法利用少样本学习技术,在模型处理新问题前,精确展示其构建推理逻辑的框架。

通过显式生成中间推理过程,模型获得了更多自我修正的机会,并能清晰展示其得出结论的逻辑路径。这对减少大型语言模型中的幻觉现象至关重要——否则模型可能自信地陈述错误事实。

实际应用

尽管最初是为文本逻辑而开发,但当与计算机视觉和代码生成等其他人工智能领域结合时,链式思维提示法具有强大的应用潜力。

1. 增强计算机视觉的代码生成

开发者利用CoT引导大型语言模型编写复杂软件脚本,例如执行目标检测任务。相较于模糊的指令如"编写查找汽车的代码",CoT提示会将请求结构化:首先导入必要库,其次加载预训练模型,第三定义图像来源,最后运行预测循环。 这种结构化方法确保为YOLO26等模型生成的代码在语法上正确且逻辑严谨。

2. 自主决策

自动驾驶领域,系统必须处理视觉数据并做出关乎安全的关键决策。 基于思维链的方法使系统能够清晰阐述其逻辑: "我detect 斑马线附近detect 。该行人面向道路。 当前交通信号灯对我方为绿灯,但行人可能突然踏出。 因此我将减速并准备停车。" 这使得人工智能的决策具有可解释性, 符合可解释人工智能(XAI)原则。

思维链条的实践

尽管CoT主要是一种自然语言技术,但它可以通过编程方式实现,以确保与视觉模型保持一致的交互。Python 开发人员如何构建提示,引导大型语言模型(此处为模拟环境)Ultralytics 生成有效的推理代码。

# Example of structuring a Chain-of-Thought prompt for an LLM
# This prompt guides the model to write a valid YOLO26 inference script

cot_prompt = """
Task: Write a Python script to detect objects using YOLO26.

Chain of Thought:
1. Import the YOLO class from the 'ultralytics' library.
2. Load the 'yolo26n.pt' model weights (the latest nano model).
3. Load a sample image using a URL or local path.
4. Run the predict() function and save the results.

Based on these steps, generate the Python code below:
"""

# In a real application, you would send 'cot_prompt' to an LLM API
print(f"Structured Prompt for LLM:\n{cot_prompt}")

区分相关概念

区分链式思维提示与机器学习(ML)领域中类似术语至关重要:

  • 提示串联这涉及将多个独立的模型调用连接起来,其中一个步骤的输出成为下一个步骤的输入。概念传递(CoT)发生在单个提示内以激发内部推理,而提示串联则在多次交互中协调工作流。
  • 检索增强生成(RAG) RAG专注于获取外部数据(如文档或数据库)以支撑模型的知识体系。CoT则聚焦于推理过程本身。通常这两者会结合使用——通过RAG获取事实,再借助CoT对这些事实进行推理。
  • 提示调优这是一种参数效率高的微调方法,可在训练过程中优化连续软提示(向量)。CoT是一种离散自然语言策略,适用于实时推理且无需修改模型权重

未来展望

随着基础模型的持续进化, 链式思维提示法正成为释放其全部潜力的标准最佳实践。来自 Google 等研究团队的发现表明, 随着模型规模的扩大, 其执行链式思维推理的能力将显著提升。 这一演进正为更可靠的自主智能体铺平道路, 使其能够处理从 医疗保健到 智能制造等各行业的复杂工作流程。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入