深圳Yolo 视觉
深圳
立即加入
词汇表

视觉指令优化

了解视觉指令调优如何使视觉语言模型能够遵循人类指令。学习如何使用Ultralytics 构建高级 AI 工作流。

视觉指令调优是一种变革性的机器学习技术,它将传统的自然语言 处理方法扩展到了多模态领域。通过训练 视觉语言模型(VLM)根据图像或视频输入遵循 明确的人类指令,开发者可以创建能够理解并 对视觉内容进行推理的AI助手。 与仅输出 预定义类别的标准 图像分类模型不同,视觉指令调优使模型能够执行复杂且开放式的任务——例如描述 场景、识别图像中的文本,或回答关于空间关系的具体问题。这弥合了 基于文本的 大型语言模型(LLMs)与 传统计算机视觉管道之间的鸿沟。

理解概念与区别

要理解视觉指令微调,将其与人工智能生态系统中相关概念区分开来会有所帮助:

  • 指令微调通常 指将纯文本大型语言模型(LLM)进行调整,使其能够安全、准确地遵循人类意图。视觉指令微调采用 相同的方法论,但在提示词和预期输出中融入了图像。
  • 视觉提示通常 指通过视觉提示与人工智能进行交互——例如在图像上绘制边界框、放置标记点或遮罩 特定区域——以引导模型的关注点。相比之下,视觉指令微调则主要依赖于 自然语言命令与视觉数据的结合。

训练过程通常涉及利用大量格式化为“图像-文本-指令”三元组的数据集,对 预训练的多模态基础模型进行微调关于视觉指令微调的开创性arXiv研究,例如 LLaVA(大型语言与视觉助手)项目,证明了这些 模型能够实现卓越的零样本学习能力。如今,各大AI机构都采用这项技术来驱动 先进模型,包括OpenAI的GPT-4oAnthropic 3.5 Sonnet以及 Google Gemini

实际应用

通过将多模态深度学习架构 与人类意图相匹配,视觉指令调优在各行各业中开辟了高度交互的应用场景:

  • 人工智能在医疗诊断中的应用 医疗专业人员可以利用基于指令调优的模型进行 视觉问答(VQA)。例如, 放射科医生可以向系统提供一张X光片,并给出指令:“标出并解释左下肺叶中 任何肺炎的征兆”,从而让人工智能充当协作性诊断助手。
  • 人工智能在制造业质量控制中的应用 操作员无需从头开始训练一个僵化的缺陷检测模型,而是可以通过向 Microsoft 等视觉系统发出指令,例如:“识别这个新制造的金属外壳上的任何微小划痕或凹痕。”

构建视觉工作流

为了构建能够利用这些功能的系统,开发人员通常依赖于强大的 物体检测模型,先从图像中提取结构 上下文,然后再将这些数据传递给视觉语言模型(VLM)。借助 PyTorch 文档TensorFlow 模型,开发人员可以构建混合 处理管道。

例如,您可以使用Ultralytics YOLO 快速感知场景,并为下游视觉语言模型生成一个基于场景信息的语言提示:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

管理这些新一代应用所需的复杂、多模态数据集可能颇具挑战。 Ultralytics 通过提供 用于数据集标注、云端训练和无缝模型部署的端到端工具,简化了这一流程。 无论您是在 ACM 数字图书馆阅读前沿论文,还是 查阅IEEE Xplore 计算机视觉档案库,向 指令优化型、高性能视觉系统的转变代表了人工智能领域的最前沿。通过将 YOLO26感知模型与优化推理模型相结合,企业 能够部署极其强大的 AI 智能体。

让我们一起共建AI的未来!

开启您的机器学习未来之旅