了解视觉指令调优如何使视觉语言模型能够遵循人类指令。学习如何使用Ultralytics 构建高级 AI 工作流。
视觉指令调优是一种变革性的机器学习技术,它将传统的自然语言 处理方法扩展到了多模态领域。通过训练 视觉语言模型(VLM)根据图像或视频输入遵循 明确的人类指令,开发者可以创建能够理解并 对视觉内容进行推理的AI助手。 与仅输出 预定义类别的标准 图像分类模型不同,视觉指令调优使模型能够执行复杂且开放式的任务——例如描述 场景、识别图像中的文本,或回答关于空间关系的具体问题。这弥合了 基于文本的 大型语言模型(LLMs)与 传统计算机视觉管道之间的鸿沟。
要理解视觉指令微调,将其与人工智能生态系统中相关概念区分开来会有所帮助:
训练过程通常涉及利用大量格式化为“图像-文本-指令”三元组的数据集,对 预训练的多模态基础模型进行微调。 关于视觉指令微调的开创性arXiv研究,例如 LLaVA(大型语言与视觉助手)项目,证明了这些 模型能够实现卓越的零样本学习能力。如今,各大AI机构都采用这项技术来驱动 先进模型,包括OpenAI的GPT-4o、 Anthropic 3.5 Sonnet以及 Google Gemini。
通过将多模态深度学习架构 与人类意图相匹配,视觉指令调优在各行各业中开辟了高度交互的应用场景:
为了构建能够利用这些功能的系统,开发人员通常依赖于强大的 物体检测模型,先从图像中提取结构 上下文,然后再将这些数据传递给视觉语言模型(VLM)。借助 PyTorch 文档或 TensorFlow 模型,开发人员可以构建混合 处理管道。
例如,您可以使用Ultralytics YOLO 快速感知场景,并为下游视觉语言模型生成一个基于场景信息的语言提示:
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...
管理这些新一代应用所需的复杂、多模态数据集可能颇具挑战。 Ultralytics 通过提供 用于数据集标注、云端训练和无缝模型部署的端到端工具,简化了这一流程。 无论您是在 ACM 数字图书馆阅读前沿论文,还是 查阅IEEE Xplore 计算机视觉档案库,向 指令优化型、高性能视觉系统的转变代表了人工智能领域的最前沿。通过将 YOLO26感知模型与优化推理模型相结合,企业 能够部署极其强大的 AI 智能体。
开启您的机器学习未来之旅