遇见 YOLO26: 下一代视觉 AI。
Ultralytics
Vision AI

了解视觉语言模型及其应用

了解视觉语言模型、它们的工作原理以及在 AI 中的各种应用。探索这些模型如何结合视觉和语言能力。

ABAbirami Vina6 min read
结合图像和文本理解的视觉语言模型

在之前的文章中,我们探讨了 GPT-4o 如何用文字理解并描述图像。我们也在 Google Gemini 和 Claude 3 等其他新模型中看到了这种能力。今天,我们将深入探讨这个概念,解释视觉语言模型(Vision Language Models)的工作原理,以及它们如何整合视觉和文本数据。

这些模型可以执行一系列令人印象深刻的任务,例如为照片生成详细的标题、回答有关图像的问题,甚至根据文本描述创建新的视觉内容。通过无缝整合视觉和语言信息,视觉语言模型正在改变我们与技术互动以及理解周围世界的方式。

Link to this section视觉语言模型的工作原理#

在了解视觉语言模型(VLM)的应用场景之前,让我们先来认识它们是什么以及它们是如何工作的。VLM 是先进的 AI 模型,结合了视觉模型和语言模型的能力来处理图像和文本。这些模型接收图片及其文本描述,并学习将两者关联起来。模型的视觉部分负责捕捉图像细节,而语言部分负责理解文本。这种协作使得 VLM 能够同时理解和分析图像与文本。

以下是视觉语言模型的关键能力:

  • 图像描述 (Image Captioning): 根据图像内容生成描述性文字。
  • 视觉问答 (VQA): 回答与图像内容相关的问题。
  • 文本转图像生成 根据文本描述创作图像。
  • 图像-文本检索: 为给定的文本查询查找相关图像,反之亦然。
  • 多模态内容创作: 结合图像和文本来生成新内容。
  • 场景理解与目标检测 识别并分类图像中的物体和细节。

视觉语言模型的能力示例

图 1. 视觉语言模型的能力示例。

接下来,让我们探讨 CLIP、SimVLM 和 VisualGPT 等知名模型所使用的常见 VLM 架构和学习技术。

Link to this section对比学习#

对比学习是一种通过比较数据点之间的差异来帮助模型学习的技术。它计算实例之间的相似度或差异,并旨在最小化测量这些差异的对比损失(contrastive loss)。它在半监督学习中特别有用,即通过少量的标记示例引导模型为新的、未见过的数据打标签。例如,为了理解猫的样子,模型会将它与相似的猫图像和狗图像进行比较。通过识别面部结构、体型和皮毛等特征,对比学习技术可以区分猫和狗。

对比学习工作原理图

图 2. 对比学习的工作原理。

CLIP 是一种使用对比学习将文本描述与图像进行匹配的视觉语言模型。它的工作过程分为三个简单步骤。首先,训练能够理解文本和图像的模型组件。其次,将数据集中的类别转换为文本描述。第三,为给定的图像识别出最匹配的描述。得益于这种方法,CLIP 模型即使在未经过特定任务训练的情况下,也能做出准确的预测。

Link to this sectionPrefixLM#

PrefixLM 是一种用于训练模型的自然语言处理 (NLP) 技术。它以句子的开头(前缀)为基础,学习预测下一个单词。在视觉语言模型中,PrefixLM 帮助模型根据图像和给定的文本片段来预测接下来的词。它使用视觉 Transformer (ViT),将图像分解为小块,每一块代表图像的一部分,并按顺序进行处理。

使用 PrefixLM 技术训练 VLM 的示例

图 3. 使用 PrefixLM 技术训练 VLM 的示例。

SimVLM 是一个使用 PrefixLM 学习技术的 VLM。与早期模型相比,它使用了更简单的 Transformer 架构,但在各种测试中取得了更好的结果。其模型架构涉及使用 Transformer 编码器学习将图像与文本前缀关联,然后使用 Transformer 解码器生成文本。

Link to this section带有交叉注意力的多模态融合#

带有交叉注意力的多模态融合是一种提升预训练视觉语言模型理解和处理视觉数据能力的技术。它通过在模型中添加交叉注意力层,使得模型能够同时关注视觉信息和文本信息。

以下是其工作方式:

  • 图像中的关键对象被识别并突出显示。
  • 突出显示的对象由视觉编码器处理,将视觉信息转换为模型可以理解的格式。
  • 视觉信息被传递给解码器,解码器利用预训练语言模型的知识来解读图像。

VisualGPT 是使用该技术的一个好例子。它包含一个名为自再生激活单元 (SRAU) 的特殊功能,有助于模型避免常见的梯度消失问题。梯度消失会导致模型在训练期间丢失重要信息,而 SRAU 则能保持模型表现稳健。

VisualGPT 模型架构图

图 4. VisualGPT 模型架构。

Link to this section视觉语言模型的应用#

视觉语言模型正在对各个行业产生影响。从增强电子商务平台到让互联网更具无障碍性,VLM 的潜在用途非常令人振奋。让我们探索其中的一些应用。

Link to this section生成产品描述#

当你在网上购物时,你会看到每件产品的详细描述,但编写这些描述可能非常耗时。VLM 通过自动化生成这些描述来简化流程。在线零售商可以使用视觉语言模型直接从产品图片中生成详细且准确的描述。

高质量的产品描述有助于搜索引擎根据描述中提到的特定属性来识别产品。例如,包含“长袖”和“棉质领口”的描述能帮助客户更轻松地找到“长袖棉质衬衫”。这也有助于客户快速找到他们想要的东西,进而提高销售额和客户满意度。

AI 生成的产品描述示例

图 5. AI 生成的产品描述示例。

生成式 AI 模型(如 BLIP-2)是能够直接从图像预测产品属性的复杂 VLM 示例。BLIP-2 使用多个组件来准确理解和描述电子商务产品。它首先通过图像编码器处理并理解产品的视觉特征,然后查询 Transformer 在特定问题或任务的上下文中解读这些视觉信息,最后由 大型语言模型 生成详细而准确的产品描述。

Link to this section让互联网更具无障碍性#

视觉语言模型可以通过图像描述功能,使互联网对视障人士更加 无障碍。传统上,用户需要手动输入网站和社交媒体上视觉内容的描述。例如,当你在 Instagram 上发帖时,可以为屏幕阅读器添加替代文本。而 VLM 可以将此过程自动化。

当 VLM 看到一张猫坐在沙发上的图片时,它可以生成“一只猫坐在沙发上”的标题,让视障用户清晰地感知场景。VLM 使用少样本提示(few-shot prompting)技术——即从少量图像-标题对中学习,以及思维链提示(chain-of-thought prompting)技术——即帮助它们合乎逻辑地拆解复杂场景。这些技术使生成的标题更加连贯和详尽。

利用 AI 生成图像标题

图 6. 利用 AI 生成图像标题。

为此,Google Chrome 中的“获取 Google 图像描述”功能会自动为没有 alt 文本的图像生成描述。虽然这些由 AI 生成的描述可能不如人类撰写的那么详尽,但它们仍然提供了宝贵的信息。

Link to this section视觉语言模型的优势与局限性#

视觉语言模型 (VLM) 通过结合视觉和文本数据提供了许多优势。一些主要的好处包括:

  • 更好的人机交互: 使系统能够理解并响应视觉和文本输入,从而改善虚拟助手、聊天机器人和机器人技术。
  • 先进的诊断与分析: 通过分析图像和生成描述辅助 医疗领域,为健康专家提供第二意见及异常检测支持。
  • 互动叙事与娱乐: 通过结合视觉和文本输入生成引人入胜的叙事,以改善游戏和虚拟现实中的用户体验。

尽管功能强大,视觉语言模型也存在一定的局限性。在使用 VLM 时,请牢记以下几点:

  • 高计算需求: 训练和部署 VLM 需要 大量的计算资源,这导致成本高昂且普及难度较大。
  • 数据依赖性和偏见: 如果在非多样化或存在偏见的数据集上进行训练,VLM 可能会产生带有偏见的结果,从而固化刻板印象和误导性信息。
  • 有限的语境理解: VLM 可能难以理解大局或语境,导致输出过于简单化或出现错误。

Link to this section主要收获#

视觉语言模型在电子商务和 医疗保健 等许多领域具有令人难以置信的潜力。通过结合视觉和文本数据,它们能够推动创新并改造行业。然而,负责任且合乎道德地开发这些技术对于确保其公平使用至关重要。随着 VLM 的不断演进,它们将改进基于图像的搜索和辅助技术等任务。

想要持续学习 AI,请加入我们的 社区!探索我们的 GitHub 仓库,了解我们如何利用 AI 在 制造业医疗保健 等行业创造创新解决方案。🚀

Explore solutions

Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 带入智慧农业。助力作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型在汽车领域应用计算机视觉。视觉 AI 提升道路安全、驾驶辅助和车辆自动化水平,实现更智能的道路。

了解详情
Real-time AI that works with your team

零售领域的 AI

利用 Ultralytics YOLO 模型构建医疗健康解决方案。医疗领域的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监测。

了解详情
Real-time AI that works with your team

零售领域的 AI

利用 Ultralytics YOLO 模型重构零售业。视觉 AI 助力库存跟踪、货架监测、队列管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型赋能更智能的机器。机器人视觉 AI 可驱动自主导航、感知、目标追踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造流程。视觉 AI 驱动质量控制、缺陷检测、PPE 合规性检查和装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分拣、车辆跟踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 带入智慧农业。助力作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型在汽车领域应用计算机视觉。视觉 AI 提升道路安全、驾驶辅助和车辆自动化水平,实现更智能的道路。

了解详情
Real-time AI that works with your team

零售领域的 AI

利用 Ultralytics YOLO 模型构建医疗健康解决方案。医疗领域的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监测。

了解详情
Real-time AI that works with your team

零售领域的 AI

利用 Ultralytics YOLO 模型重构零售业。视觉 AI 助力库存跟踪、货架监测、队列管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型赋能更智能的机器。机器人视觉 AI 可驱动自主导航、感知、目标追踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造流程。视觉 AI 驱动质量控制、缺陷检测、PPE 合规性检查和装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分拣、车辆跟踪和实时仓库安全监控。

了解详情
Real-time AI tailored to your operation

农业中的 AI

利用 Ultralytics YOLO 模型将视觉 AI 带入智慧农业。助力作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解详情
Real-time AI that works with your operation

汽车领域的 AI

利用 Ultralytics YOLO 模型在汽车领域应用计算机视觉。视觉 AI 提升道路安全、驾驶辅助和车辆自动化水平,实现更智能的道路。

了解详情
Real-time AI that works with your team

零售领域的 AI

利用 Ultralytics YOLO 模型构建医疗健康解决方案。医疗领域的视觉 AI 可加速医学影像处理、实现更智能的诊断并改善患者监测。

了解详情
Real-time AI that works with your team

零售领域的 AI

利用 Ultralytics YOLO 模型重构零售业。视觉 AI 助力库存跟踪、货架监测、队列管理和更智能的客户洞察。

了解详情
Real-time AI that works with your team

机器人领域的 AI

利用 Ultralytics YOLO 模型赋能更智能的机器。机器人视觉 AI 可驱动自主导航、感知、目标追踪和实时控制。

了解详情
Real-time AI that works with your team

制造业中的 AI

利用 Ultralytics YOLO 模型优化制造流程。视觉 AI 驱动质量控制、缺陷检测、PPE 合规性检查和装配线自动化。

了解详情
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 支持包裹检测、分拣、车辆跟踪和实时仓库安全监控。

了解详情

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅