Visual Instruction Tuning

探索视觉指令微调如何使视觉语言模型（VLM）能够遵循人类指令。学习使用 Ultralytics YOLO26 构建先进的 AI 工作流。

视觉指令微调是一种变革性的机器学习技术，它将传统的自然语言处理方法扩展到了多模态领域。通过训练视觉语言模型 (VLM) 来遵循基于图像或视频输入的明确人类指令，开发者可以创建能够理解并推理视觉内容的 AI 助手。与输出预定义类别的标准图像分类模型不同，视觉指令微调赋予了模型执行复杂、开放式任务的能力，例如描述场景、读取图像中的文本或回答有关空间关系的特定问题。这弥合了基于文本的大语言模型 (LLM) 与传统计算机视觉流水线之间的鸿沟。

Link to this section理解这一概念及其区别#

为了理解视觉指令微调，将其与 AI 生态系统中密切相关的概念区分开来会有所帮助：

指令微调： 通常指对仅处理文本的 LLM 进行对齐，以安全且准确地遵循人类意图。视觉指令微调采用了相同的方法，但在提示词和预期输出中加入了图像。
视觉提示： 通常涉及使用视觉线索与 AI 交互，例如在图像上绘制边界框、放置点或遮盖区域，以引导模型的注意力。相比之下，视觉指令微调主要依赖于与视觉数据配对的自然语言命令。

训练过程通常涉及使用格式化为图像-文本-指令三元组的广泛数据集，对预训练的多模态基础模型进行微调。开创性的关于视觉指令微调的 arXiv 研究（例如 LLaVA (大型语言与视觉助手) 项目）表明，这些模型可以实现卓越的零样本能力。如今，各大 AI 组织都在使用该技术来支持先进的模型，包括 OpenAI GPT-4o、Anthropic Claude 3.5 Sonnet 和 Google DeepMind Gemini。

Link to this section实际应用#

通过将多模态深度学习架构与人类意图对齐，视觉指令微调为各个行业开启了高度交互的应用场景：

医疗诊断中的 AI： 医学专业人士可以使用经过指令微调的模型进行视觉问答 (VQA)。放射科医生可以向系统输入一张 X 光片并附上指令：“突出显示并解释左下肺叶中任何肺炎迹象”，从而让 AI 作为协作诊断助手发挥作用。
制造质量控制中的 AI： 操作员无需从零开始训练僵化的缺陷检测模型，而是可以指导像 Microsoft Florence-2 这样的视觉系统，只需说明：“识别这个新制造的金属外壳上的任何微小划痕或凹痕。”

Link to this section构建视觉工作流#

为了构建利用这些功能的系统，开发者通常依赖强大的目标检测模型从图像中提取结构化上下文，然后再将这些数据传递给 VLM。使用 PyTorch 多模态文档或 TensorFlow 视觉模型，开发者可以创建混合流水线。

例如，你可以使用 Ultralytics YOLO 模型快速感知场景，并为后续的 VLM 生成有依据的语言提示词：

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

管理这些下一代应用程序所需的复杂多模态数据集可能具有挑战性。Ultralytics Platform 通过提供用于数据集标注、云端训练和无缝模型部署的端到端工具，简化了这一过程。无论你是在阅读 ACM 数字图书馆上的尖端论文，还是在浏览 IEEE Xplore 计算机视觉档案，向经过指令微调且具备高能力视觉系统的转变都代表了人工智能的前沿水平。通过将 YOLO26 感知与经过微调的推理模型配对，各组织能够部署极其强大的 AI 代理。