深圳尤洛视觉
深圳
立即加入

Google 的 PaliGemma 2:高级 VLM 模型洞察

Abirami Vina

4 分钟阅读

2024年12月6日

加入我们,仔细研究 Google 的新型视觉语言模型:PaliGemma 2。这些模型可以帮助理解和分析图像和文本。

2024年12月5日,谷歌推出了 PaliGemma 2,这是其最新的尖端 视觉语言模型 (VLM)。PaliGemma 2 旨在处理结合图像和文本的任务,例如生成标题、回答视觉问题以及检测视觉对象。 

原始 PaliGemma 已经是一个用于多语言字幕和对象识别的强大工具,而 PaliGemma 2 在此基础上进行了一些关键改进。这些改进包括更大的模型尺寸、对更高分辨率图像的支持以及在复杂视觉任务上的更佳性能。这些升级使其在广泛的用途中更加灵活和有效。

在本文中,我们将仔细研究 PaliGemma 2,包括它的工作原理、主要功能以及它擅长的应用。让我们开始吧!

从 Gemma 2 到 PaliGemma 2

PaliGemma 2 构建于两项关键技术之上:SigLIP 视觉编码器和 Gemma 2 语言模型。SigLIP 编码器处理视觉数据(如图像或视频),并将其分解为模型可以分析的特征。同时,Gemma 2 处理文本,使模型能够理解和生成多语言语言。它们共同构成了一个 VLM,旨在无缝地解释和连接视觉和文本信息。

PaliGemma 2 的一个重大进步是其可扩展性和多功能性。与原始版本不同,PaliGemma 2 有三种尺寸——30 亿(3B)、100 亿(10B)和 280 亿(28B)参数。这些参数就像模型的内部设置,帮助它有效地学习和处理数据。它还支持不同的图像分辨率(例如,224 x 224 像素用于快速任务,896 x 896 像素用于详细分析),使其适用于各种应用。

图 1. PaliGemma 2 概述。

将 Gemma 2 的高级语言功能与 SigLIP 的图像处理相结合,使 PaliGemma 2 更加智能。它可以处理以下任务:

  • 为图像或视频添加字幕 该模型可以生成视觉效果的详细文本描述,使其可用于自动创建字幕。
  • 视觉问答:PaliGemma 2 可以回答基于图像的问题,例如识别场景中的物体、人物或动作。
  • 物体识别 它识别并标记图像中的物体,例如区分照片中的猫、桌子或汽车。

PaliGemma 2 不仅仅是单独处理图像和文本,它还以有意义的方式将它们结合在一起。例如,它可以理解场景中的关系,例如识别出“猫坐在桌子上”,或者在添加上下文的同时识别物体,例如识别出著名的地标。 

Google 的 PaliGemma 2 VLM 模型如何运作

接下来,我们将通过一个示例,使用下图所示的图表,以便更好地理解 PaliGemma 2 如何处理视觉和文本数据。假设您上传此图表并询问模型“此图表代表什么?”

图 2. PaliGemma 2 的能力示例。

该过程首先使用 PaliGemma 2 的 SigLIP 视觉编码器分析图像并提取关键特征。对于图表,这包括识别轴、数据点和标签等元素。该编码器经过训练,可以捕获广泛的模式和精细的细节。它还使用光学字符识别 (OCR)来检测和处理嵌入在图像中的任何文本。这些视觉特征被转换为 tokens,tokens 是模型可以处理的数值表示。然后使用线性投影层调整这些 tokens,这项技术确保它们可以与文本数据无缝结合。

与此同时,Gemma 2 语言模型处理随附的查询以确定其含义和意图。查询中的文本被转换为令牌,这些令牌与来自 SigLIP 的视觉令牌组合以创建多模态表示,这是一种连接视觉和文本数据的统一格式。 

使用这种集成的表示形式,PaliGemma 2 通过自回归解码逐步生成响应,自回归解码是一种模型基于其已处理的上下文一次预测答案一部分的方法。 

PaliGemma 2 的主要功能

既然我们了解了它的工作原理,那么让我们来探索使 PaliGemma 2 成为可靠的视觉语言模型的关键特性:

  • 微调灵活性:轻松适应特定的数据集和任务,在图像描述、空间推理和医学成像等应用中表现良好。
  • 多样化的训练数据:基于 WebLI 和 OpenImages 等数据集进行训练,使其具有强大的对象识别能力和多语言输出能力。
  • OCR 集成: 包含光学字符识别功能,用于从图像中提取和解释文本,使其成为文档分析和其他基于文本的任务的理想选择。
  • 多语言输出:生成多种语言的字幕和回复,非常适合全球应用。
  • 与工具集成:它与 Hugging Face Transformers、PyTorch 和 Keras 等框架兼容,从而可以轻松部署和实验。

PaliGemma 2 和 PaliGemma 比较:有哪些改进?

了解 PaliGemma 第一代的架构是理解 PaliGemma 2 增强功能的好方法。其中一个最显著的变化是用 Gemma 2 替换了最初的 Gemma 语言模型,这在性能和效率方面都带来了显著的提升。 

Gemma 2 提供 9B 和 27B 参数两种规格,旨在提供一流的准确性和速度,同时降低部署成本。 它通过重新设计的架构来实现这一点,该架构针对各种硬件设置(从强大的 GPU 到更易于访问的配置)的推理效率进行了优化。

图 3. 回顾 PaliGemma 2 的第一个版本。

因此,PaliGemma 2 是一个高度准确的模型。与原始模型的 34.3 相比,PaliGemma 2 的 10B 版本的非蕴涵句(NES)得分较低,为 20.3,这意味着其输出中的事实错误更少。这些进步使 PaliGemma 2 更具可扩展性、精确性和适应性,可应用于更广泛的应用,从详细的字幕到视觉问题解答。

PaliGemma 2 的应用:VLM 模型在现实世界中的应用

PaliGemma 2 有可能通过无缝结合视觉和语言理解来重新定义行业。例如,在可访问性方面,它可以生成关于物体、场景和空间关系的详细描述,为视障人士提供关键的帮助。这种能力有助于用户更好地了解他们的环境,从而在日常任务中提供更大的独立性。 

图 4. PaliGemma 2 可以让世界变得更加无障碍。

除了易用性之外,PaliGemma 2 还在各个行业中产生影响,包括:

  • 电子商务:该模型通过分析和描述图像中的商品来增强产品分类,从而简化库存管理并改善用户的搜索体验。
  • 医疗保健:它通过解释医学影像(如 X 射线和 MRI)以及临床笔记来支持医疗专业人员,从而提供更准确和知情的诊断。
  • 教育:PaliGemma 2 通过生成标题和提供图像的上下文信息,帮助教育工作者创建描述性强且易于理解的学习材料。
  • 内容创作:该模型自动执行为多媒体内容生成字幕和视觉描述的过程,从而节省了创作者的时间。

亲自尝试:PaliGemma 2

要试用 PaliGemma 2,您可以从 Hugging Face 的交互式演示开始。它允许您探索其在图像描述和视觉问答等任务中的能力。只需上传一张图片,然后向模型提问或请求对场景进行描述。

图 5.PaliGemma 2 演示(来源:huggingface)。

如果您想更深入地了解,以下是如何亲身实践:

  • 预训练模型:您可以从Hugging Face和Kaggle等平台访问预训练模型和代码。这些资源提供了开始使用该模型所需的一切。
  • Notebooks:我们提供了全面的文档和示例notebook,帮助您熟悉PaliGemma 2。您可以从推理示例开始,并尝试在您自己的数据集上对模型进行微调,以完成特定任务。
  • 集成:PaliGemma 2 与 Hugging Face Transformers、Keras、PyTorch、JAX 和 Gemma.cpp 等广泛使用的框架兼容,使您可以毫不费力地将其集成到现有工作流程中。

Google’s PaliGemma 2 的优缺点

在了解了如何开始使用 PaliGemma 2 之后,让我们仔细看看它的主要优势和缺点,以便在使用这些模型时牢记。 

以下是 PaliGemma 2 作为视觉语言模型的突出之处:

  • 效率提升:PaliGemma 2 利用 Gemma 2 的优化架构,在最大限度地降低部署成本的同时,提供高性能。
  • 增强的安全功能:PaliGemma 2 在其训练过程中包含了显著的安全改进,例如对预训练数据进行强大的过滤以减少偏差,并根据安全基准进行严格的评估。
  • 小型配置的低延迟: 3B模型提供更快的推理时间,使其适用于对速度要求严格的用例,例如电子商务产品推荐或实时支持系统。

同时,以下是 PaliGemma 2 可能面临的一些局限性:

  • 延迟:虽然功能强大,但较大的模型可能会面临延迟问题,尤其是在部署用于需要立即响应的任务时,例如实时交互式人工智能系统。
  • 依赖于大型数据集:PaliGemma 2 的性能与其训练数据集的质量和多样性密切相关,这可能会限制其在训练数据中未包含的代表性不足的领域或语言中的有效性。
  • 资源需求高: 尽管经过优化,10B和28B参数版本仍然需要大量的计算能力,这使得资源有限的小型组织难以使用。

主要要点

PaliGemma 2 是视觉语言建模领域的一项引人入胜的进步,它提供了更高的可扩展性、微调灵活性和准确性。它可以作为各种应用程序的宝贵工具,从辅助功能解决方案和电子商务到医疗保健诊断和教育。 

尽管PaliGemma 2存在一些局限性,例如计算需求和对高质量数据的依赖,但其优势使其成为解决集成视觉和文本数据的复杂任务的实用选择。PaliGemma 2可以为研究人员和开发人员提供一个强大的基础,以探索和扩展AI在多模态应用中的潜力。

查看我们的 GitHub 存储库社区,参与到 AI 的讨论中来。阅读关于 AI 如何在 农业医疗保健 领域取得进展的文章!🚀

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板