视觉语言模型解析 |Ultralytics

在上一篇文章中，我们探讨了GPT-4o如何用文字来理解和描述图像。我们还在Google 双子座和克劳德 3 等其他新模型中看到了这种功能。今天，我们将深入探讨这一概念，解释视觉语言模型是如何工作的，以及它们是如何结合视觉和文本数据的。

这些模型可用于执行一系列令人印象深刻的任务，例如为照片生成详细的标题、回答有关图像的问题，甚至根据文本描述创建新的视觉内容。通过无缝集成视觉和语言信息，视觉语言模型正在改变我们与技术互动和理解周围世界的方式。

视觉语言模型的工作原理

在了解视觉语言模型 (VLM) 的应用之前，让我们先了解它们是什么以及它们是如何工作的。VLM 是一种先进的 AI 模型，它结合了视觉和语言模型的能力，可以处理图像和文本。这些模型接收图片及其文本描述，并学习将两者联系起来。模型中的视觉部分捕捉图像中的细节，而语言部分理解文本。这种协同工作使 VLM 能够理解和分析图像和文本。

以下是视觉语言模型的关键功能：

图像描述 (Image Captioning)： 根据图像内容生成描述性文本。
‍
视觉问答 (VQA)： 回答与图像内容相关的问题。
‍
文本生成图像 (Text-to-Image Generation)：根据文本描述创建图像。
‍
图文检索 (Image-Text Retrieval)： 查找与给定文本查询相关的图像，反之亦然。
‍
多模态内容创建 (Multimodal Content Creation)： 结合图像和文本来生成新内容。
‍
场景理解和目标检测 (Object Detection)：识别和分类图像中的对象和细节。

__wf_reserved_inherit — 图 1. 视觉语言模型的功能示例。

接下来，让我们探讨 CLIP、SimVLM 和 VisualGPT 等知名模型使用的常见 VLM 架构和学习技术。

对比学习

对比学习是一种通过比较数据点之间的差异来帮助模型学习的技术。它计算实例之间的相似或不同程度，并旨在最小化对比损失，对比损失衡量的是这些差异。它在半监督学习中特别有用，其中一小组标记的示例指导模型标记新的、未见过的数据。例如，为了理解猫是什么样子，模型会将其与类似的猫图像和狗图像进行比较。通过识别面部结构、体型和毛皮等特征，对比学习技术可以区分猫和狗。

CLIP 是一种视觉语言模型，它使用对比学习将文本描述与图像进行匹配。它通过三个简单的步骤工作。首先，它训练模型中理解文本和图像的部分。其次，它将数据集中的类别转换为文本描述。第三，它识别给定图像的最佳匹配描述。由于这种方法，即使对于未经专门训练的任务，CLIP 模型也可以做出准确的预测。

PrefixLM

前缀 LM 是一种用于训练模型的自然语言处理（NLP）技术。它从句子的一部分（前缀）开始，学习预测下一个单词。在视觉语言模型中，PrefixLM 可帮助模型根据图像和给定文本预测下一个单词。它使用视觉Transformer (ViT)，将图像分割成小块，每个小块代表图像的一部分，并依次进行处理。

SimVLM是一种使用 PrefixLM 学习技术的 VLM。与早期的模型相比，它使用了更简单的Transformer 架构，但在各种测试中取得了更好的结果。它的模型架构包括使用transformer 编码器学习将图像与文本前缀相关联，然后使用transformer 解码器生成文本。

使用 Cross-Attention 的多模态融合

使用 Cross-Attention 的多模态融合是一种提高预训练视觉语言模型理解和处理视觉数据能力的技术。它的工作原理是在模型中添加 Cross-Attention 层，这使得模型可以同时关注视觉和文本信息。

以下是它的工作原理：

识别并突出显示图像中的关键对象。
‍
突出显示的对象由视觉编码器处理，将视觉信息转换为模型可以理解的格式。
‍
视觉信息被传递到解码器，解码器使用预训练语言模型的知识来解释图像。

VisualGPT 是使用此技术的一个很好的例子。它包含一个称为自复活激活单元 (SRAU) 的特殊功能，该功能可帮助模型避免一个称为梯度消失的常见问题。梯度消失会导致模型在训练期间丢失重要信息，但 SRAU 可以保持模型的强大性能。

视觉语言模型的应用

视觉语言模型正在对各行各业产生影响。从增强电子商务平台到使互联网更易于访问，VLM 的潜在用途令人兴奋。让我们来探索其中的一些应用。

生成产品描述

当您在网上购物时，您会看到每个产品的详细描述，但创建这些描述可能非常耗时。VLM 通过自动生成这些描述来简化此过程。在线零售商可以直接使用视觉语言模型从产品图像生成详细而准确的描述。

高质量的产品描述有助于搜索引擎根据描述中提到的特定属性识别产品。例如，包含“长袖”和“棉质领口”的描述有助于客户更轻松地找到“长袖棉质衬衫”。它还有助于客户快速找到他们想要的东西，从而提高销售额和客户满意度。

生成式人工智能模型（如BLIP-2）是复杂的 VLM 的范例，它可以直接从图像中预测产品属性。BLIP-2 使用多个组件来准确理解和描述电子商务产品。它首先使用图像编码器处理和理解产品的视觉方面。然后，查询transformer 根据具体问题或任务解释这些视觉信息。最后，大型语言模型生成详细准确的产品描述。

使互联网更易于访问

视觉语言模型可以通过图像字幕使互联网更易于访问，特别是对于视障人士。传统上，用户需要在网站和社交媒体上输入视觉内容的描述。例如，当您在 Instagram 上发帖时，您可以为屏幕阅读器添加替代文本。但是，VLM 可以自动执行此过程。

当 VLM 看到一张猫坐在沙发上的图片时，它可以生成标题“一只猫坐在沙发上”，从而使视障用户可以清楚地看到场景。VLM 使用诸如少样本提示（从少量图像-标题对示例中学习）和思维链提示（帮助他们从逻辑上分解复杂场景）之类的技术。这些技术使生成的标题更加连贯和详细。

为此，Google Chrome 浏览器中的"Google获取图片说明"功能会自动生成没有 alt 文本的图片说明。虽然这些人工智能生成的描述可能不如人类撰写的描述详细，但仍能提供有价值的信息。

视觉语言模型的优势与局限

视觉语言模型 (VLM) 通过组合视觉和文本数据提供了许多优势。一些主要优势包括：

更好的人机交互：使系统能够理解和响应视觉和文本输入，从而改进虚拟助手、聊天机器人和机器人技术。
‍
高级诊断和分析：通过分析图像和生成描述来协助医疗领域，为健康专业人员提供第二意见和异常检测。
‍
互动式故事讲述和娱乐：通过组合视觉和文本输入来生成引人入胜的叙述，从而改善游戏和虚拟现实中的用户体验。

尽管视觉语言模型具有令人印象深刻的功能，但也存在一定的局限性。以下是关于 VLM 的一些注意事项：

高计算要求：训练和部署 VLM 需要大量的计算资源，这使得它们成本高昂且不易访问。
‍
数据依赖性和偏差：如果 VLM 在非多样化或有偏差的数据集上进行训练，则可能会产生有偏差的结果，这可能会使刻板印象和错误信息永久存在。
‍
有限的上下文理解：VLM 可能难以理解更大的图景或上下文，并生成过于简化或不正确的输出。

主要要点

视觉语言模型在许多领域（如电子商务和医疗保健）都具有令人难以置信的潜力。通过组合视觉和文本数据，它们可以推动创新并改变行业。但是，以负责任和合乎道德的方式开发这些技术对于确保它们得到公平使用至关重要。随着 VLM 的不断发展，它们将改进诸如基于图像的搜索和辅助技术之类的任务。

要继续学习 AI，请与我们的社区联系！浏览我们的 GitHub 存储库，了解我们如何使用 AI 在制造业和医疗保健等行业中创建创新解决方案。🚀

了解视觉语言模型及其应用

视觉语言模型的工作原理

对比学习

PrefixLM

使用 Cross-Attention 的多模态融合

视觉语言模型的应用

生成产品描述

使互联网更易于访问

视觉语言模型的优势与局限

主要要点

阅读更多此类别的内容

理解为何人机协同标注至关重要

Oakley Meta AI眼镜正以视觉人工智能技术重新定义眼镜行业

计算机视觉技术正推动更智能的观鸟双筒望远镜发展

让我们一起构建人工智能的未来！