Instruction Tuning

了解指令微调如何使 AI 模型与人类意图对齐。学习训练 Ultralytics YOLO26 及其他模型以遵循特定指令，从而更好地完成任务。

指令微调是一种专业化的机器学习技术，用于训练模型以遵循特定的用户指令或命令。与标准的预训练（通常侧重于预测序列中的下一个单词或识别数据中的通用模式）不同，指令微调利用格式化为直接任务的数据集。通过让模型接触结构化为显式命令及其相应正确响应的输入-输出对，开发者可以将通用基础模型转变为具有高度响应性、以任务为导向的助手。这种方法广泛应用于生成式 AI 中，旨在使模型与人类意图对齐，确保输出结果具有相关性、安全性和可操作性。

Link to this section指令微调的工作原理#

该过程涉及使用高度整理的指令数据集来更新模型的模型权重。这些数据集涵盖了从求解数学方程到分析图像等不同领域。在训练过程中，模型会学习指令的祈使语气（例如“总结这段文字”或“识别此图像中的对象”）与期望输出格式之间的结构关系。谷歌最近的研究（例如关于 FLAN (Fine-tuned Language Net) 的研究）表明，经过指令微调的模型在处理未见过的任务时，表现出了大幅提升的零样本学习能力。

Link to this section实际应用#

指令微调在文本和视觉模态中都开启了变革性的能力：

交互式 AI 助手： 现代聊天机器人严重依赖指令微调来处理复杂的对话并执行多步逻辑。这种微调确保了当用户要求系统将数据格式化为 JSON 对象时，模型会严格遵守该约束，而不是生成对话式填充内容。OpenAI 关于 InstructGPT 的研究强调了这种技术如何减少有毒输出并提高对齐度。
视觉-语言模型 (VLMs)： 在计算机视觉领域，指令微调被用于构建灵活、可提示的视觉系统。与检测一组固定类别的僵化目标检测流水线不同，经过指令微调的视觉模型可以处理诸如“找到装配线上的缺陷产品”之类的命令，并动态调整其关注点。

为了管理这些先进工作流所需的高质量数据集，团队通常会转向 Ultralytics Platform，它简化了数据集标注、项目组织和基于云的训练部署。

Link to this section区分相关概念#

为了正确构建 AI 流水线，区分指令微调与类似的模型优化技术非常重要：

提示词微调 vs. 指令微调： 提示词微调是一种参数高效的方法，它在保持基础模型冻结的同时，优化一小组“软提示词”（可学习的张量）。相比之下，指令微调通常涉及在指令数据集上使用监督学习来更新整个模型（或其很大一部分）。
微调 vs. 指令微调： 传统的微调使模型适应特定领域（例如医学文献），而不一定会教它如何遵循命令。指令微调是微调的一个独特子集，专门旨在提高在各种指令下的任务执行能力和自然语言理解能力。

Link to this section实践中的模型适配#

对于构建自定义计算机视觉流水线的开发者而言，使基础模型适应特定的任务约束是一个常见需求。虽然完全的指令微调需要专门的大规模数据集，但使 Ultralytics YOLO26 等强大模型适应特定领域任务时，使用了类似的监督适配原理。

from ultralytics import YOLO

# Load a pre-trained YOLO26 foundation model
model = YOLO("yolo26n.pt")

# Adapt the model weights to a custom task dataset using the PyTorch backend
# This process aligns the model's predictive capabilities with user-defined classes
results = model.train(data="custom_task.yaml", epochs=50, imgsz=640)

通过利用这些先进的训练方法，你可以部署稳健的 AI 系统，可靠地解释和执行复杂命令，从而弥合理论上的深度学习与实际、以用户为中心的软件之间的差距。如需进一步了解训练机制，请探索官方 PyTorch 关于神经网络训练的文档。