深圳Yolo 视觉
深圳
立即加入
词汇表

视觉语言模型 (VLM)

探索 Ultralytics 的视觉语言模型 (VLM)。了解它们如何利用 Ultralytics YOLO26 弥合计算机视觉和 LLM 之间的鸿沟,实现 VQA 和开放词汇 detect。

视觉语言模型 (VLM) 是一种人工智能,能够同时处理和解释视觉信息(图像或视频)和文本信息。与仅关注像素数据的传统计算机视觉模型或只理解文本的大型语言模型 (LLMs)不同,VLM弥合了这两种模态之间的鸿沟。通过在包含图像-文本对的海量数据集上进行训练,这些模型学习将视觉特征与语言概念关联起来,使它们能够描述图像、回答有关视觉场景的问题,甚至根据它们“看到”的内容执行命令。

视觉语言模型的工作原理

视觉语言模型(VLM)的核心通常由两个主要组件构成:视觉编码器和文本编码器。视觉编码器处理图像以提取 feature maps 和视觉表示,而文本编码器则处理语言输入。这些不同的数据流随后通过 cross-attention 等机制进行融合,以在共享嵌入空间中对齐视觉和文本信息。

2024 年和 2025 年的最新进展已转向更统一的架构,其中单个 Transformer 主干网络处理两种模态。例如,Google PaliGemma 2 等模型展示了如何有效地整合这些数据流可以提高复杂推理任务的性能。这种对齐使模型能够理解上下文,例如识别出“apple”一词在杂货店图片中指水果,但在徽标中指科技公司。

实际应用

通过视觉和语言理解世界的能力,在各行各业开启了多样化应用:

  • 视觉问答 (VQA):VLM 在医疗诊断中被广泛用于辅助放射科医生。医生可能会问系统:“这张X光片有骨折吗?”模型会分析医学图像以提供初步评估,从而减少诊断错误。
  • 智能电商搜索:零售环境中,VLM 使消费者能够使用自然语言描述结合图像来搜索商品。购物者可以上传一张名人服装的照片,然后询问:“帮我找一件有这种图案但颜色是蓝色的连衣裙,”系统会使用语义搜索来检索准确的匹配结果。
  • 自动字幕和可访问性:VLM 自动为网络图像生成描述性alt text,使数字内容对依赖屏幕阅读器的视障用户更具可访问性。

区分 VLM 与相关概念

区分VLM与其他AI类别有助于理解其具体作用:

  • VLM 与 LLM 的对比:大型语言模型(如 GPT-4 纯文本版本)仅处理文本数据。虽然它可以生成创意故事或代码,但它无法“看到”图像。VLM 实际上赋予了 LLM 视觉能力。
  • VLM 与目标检测的对比:传统的目标检测模型,例如早期的 YOLO 版本,识别物体在哪里以及属于什么类别(例如,“汽车:99%”)。VLM 更进一步,能够理解关系和属性,例如“一辆红色跑车停在消防栓旁边。”
  • VLM 与多模态 AI 的对比:多模态 AI 是一个更广泛的伞形术语。虽然所有 VLM 都是多模态的(结合了视觉和语言),但并非所有多模态模型都是 VLM;有些可能结合音频和文本(如语音转文本),或视频和传感器数据,但不包含语言组件。

使用 YOLO 进行开放词汇 detect

现代VLM实现了“开放词汇”detect,您可以使用自由形式的文本提示而不是预定义类别来detect对象。这是Ultralytics YOLO-World等模型的关键特性,它允许动态定义类别而无需重新训练。

下面的示例演示了如何使用 ultralytics 包,用于 detect 由文本描述的特定对象:

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

挑战和未来方向

尽管视觉语言模型功能强大,但它们面临着重大挑战。一个主要问题是幻觉,即模型自信地描述图像中根本不存在的物体或文本。研究人员正在积极研究基于人类反馈的强化学习(RLHF)等技术,以提高基础性和准确性。

另一个挑战是计算成本。训练这些大型模型需要大量的 GPU resources。然而,Ultralytics YOLO26 等高效架构的发布正在帮助将先进的视觉能力引入边缘设备。展望未来,我们预计 VLM 将在 robotic agents 中发挥关键作用,使机器人能够根据复杂的口头指令进行导航和操作物体。

对于对理论基础感兴趣的人,OpenAI 的原始 CLIP paper by OpenAI 为对比语言-图像预训练提供了出色的见解。此外,及时了解 CVPR conference papers 对于追踪这些架构的快速发展至关重要。要尝试训练自己的视觉模型,您可以使用 Ultralytics Platform 进行流线型数据集管理和模型部署。

让我们一起共建AI的未来!

开启您的机器学习未来之旅