视觉 AI

Google 的 PaliGemma 2：对先进 VLM 模型的见解

加入我们，近距离观察 Google 的新视觉语言模型：PaliGemma 2。这些模型有助于理解和分析图像及文本。

ABAbirami Vina

4 min readDecember 6, 2024

2024 年 12 月 5 日，Google 推出了 PaliGemma 2，这是其尖端视觉语言模型 (VLM) 的最新版本。PaliGemma 2 旨在处理图像与文本相结合的任务，例如生成标题、回答视觉问题以及检测视觉内容中的对象。

PaliGemma 2 在原始 PaliGemma 的基础上进行了多项关键改进，而原始版本已经是多语言标题生成和对象识别的强大工具。这些改进包括更大的模型尺寸、对更高分辨率图像的支持以及在复杂视觉任务中更好的表现。这些升级使其在广泛的用途中更加灵活且有效。

在本文中，我们将仔细研究 PaliGemma 2，包括它的工作原理、主要功能以及它擅长的应用场景。让我们开始吧！

Link to this section从 Gemma 2 到 PaliGemma 2#

PaliGemma 2 基于两项关键技术：SigLIP 视觉编码器和 Gemma 2 语言模型。SigLIP 编码器处理视觉数据（如图像或视频），并将其分解为模型可以分析的特征。同时，Gemma 2 处理文本，使模型能够理解和生成多语言内容。它们共同构成了一个 VLM，旨在无缝解释和连接视觉与文本信息。

PaliGemma 2 之所以成为重大进步，在于其可扩展性和通用性。与原始版本不同，PaliGemma 2 有三种尺寸——30 亿 (3B)、100 亿 (10B) 和 280 亿 (28B) 参数。这些参数就像模型的内部设置，帮助它有效地学习和处理数据。它还支持不同的图像分辨率（例如，用于快速任务的 224 x 224 像素和用于详细分析的 896 x 896），使其能够适应各种应用。

PaliGemma 2 概览

图 1. PaliGemma 2 概览。

将 Gemma 2 的高级语言能力与 SigLIP 的图像处理相结合，使 PaliGemma 2 变得更加智能。它可以处理以下任务：

为图像或视频添加标题：该模型可以生成视觉内容的详细文本描述，这对于自动创建标题非常有用。
视觉问答： PaliGemma 2 可以根据图像回答问题，例如识别场景中的物体、人物或动作。
对象识别：它能识别并标记图像中的对象，例如区分照片中的猫、桌子或汽车。

PaliGemma 2 不仅仅是分别处理图像和文本——它以有意义的方式将它们结合在一起。例如，它可以理解场景中的关系，例如识别“猫坐在桌子上”，或者在添加上下文的同时识别对象，例如识别著名地标。

Link to this sectionGoogle 的 PaliGemma 2 VLM 模型如何工作#

接下来，我们将通过下图所示的图形进行示例，以更好地了解 PaliGemma 2 如何处理视觉和文本数据。假设你上传了这张图表并询问模型：“这张图代表什么？”

PaliGemma 2 的能力示例

图 2. PaliGemma 2 能力示例。

该过程首先使用 PaliGemma 2 的 SigLIP 视觉编码器来分析图像并提取关键特征。对于图表，这包括识别坐标轴、数据点和标签等元素。编码器经过训练，可以捕捉广泛的模式和细节。它还使用光学字符识别 (OCR) 来检测和处理图像中嵌入的任何文本。这些视觉特征被转换为标记（tokens），即模型可以处理的数字表示。然后使用线性投影层对这些标记进行调整，这是一种确保它们可以与文本数据无缝结合的技术。

同时，Gemma 2 语言模型处理随附的查询以确定其含义和意图。查询中的文本被转换为标记，并将这些标记与来自 SigLIP 的视觉标记相结合，创建一种多模态表示，这是一种连接视觉和文本数据的统一格式。

利用这种集成表示，PaliGemma 2 通过自回归解码逐步生成响应，这是一种模型根据已处理的上下文一次预测答案一部分的方法。

Link to this sectionPaliGemma 2 的关键能力#

既然我们了解了它的工作原理，让我们探讨一下使 PaliGemma 2 成为可靠视觉语言模型的关键特性：

微调灵活性：可轻松适应特定的数据集和任务，在图像标注、空间推理和医学影像等应用中表现出色。
多样化的训练数据：在 WebLI 和 OpenImages 等数据集上进行训练，使其具备强大的对象识别能力和多语言输出能力。
OCR 集成：包含用于从图像中提取和解释文本的光学字符识别，使其成为文档分析和其他基于文本的任务的理想选择。
多语言输出：以多种语言生成标题和响应，非常适合全球化应用。
工具集成：它与 Hugging Face Transformers、PyTorch 和 Keras 等框架兼容，实现轻松的部署和实验。

Link to this section比较 PaliGemma 2 和 PaliGemma：改进了什么？#

查看第一版 PaliGemma 的架构是了解 PaliGemma 2 增强功能的好方法。最显着的变化之一是用 Gemma 2 替换了原始的 Gemma 语言模型，这在性能和效率方面都带来了实质性的提升。

Gemma 2 提供 9B 和 27B 参数版本，旨在提供行业领先的准确性和速度，同时降低部署成本。它通过针对各种硬件设置（从强大的 GPU 到更易用的配置）进行推理效率优化的重构架构来实现这一目标。

回顾第一版 PaliGemma

图 3. 回顾第一版 PaliGemma 2。

因此，PaliGemma 2 是一款高度准确的模型。10B 版本的 PaliGemma 2 的非蕴含句 (NES) 得分为 20.3，而原始模型为 34.3，这意味着其输出的事实错误更少。这些进步使 PaliGemma 2 更具可扩展性、精确性，并能适应从详细标注到视觉问答等更广泛的应用范围。

Link to this sectionPaliGemma 2 的应用：VLM 模型的实际用途#

PaliGemma 2 有潜力通过无缝结合视觉和语言理解来重新定义各个行业。例如，在可访问性方面，它可以生成物体、场景和空间关系的详细描述，为视障人士提供关键的辅助。此功能有助于用户更好地理解周围环境，在处理日常任务时提供更大的独立性。

PaliGemma 2 让世界变得更加无障碍

图 4. PaliGemma 2 可以让世界变得更易于访问。

除了可访问性之外，PaliGemma 2 正在对各行各业产生影响，包括：

电子商务：该模型通过分析和描述图像中的商品来增强产品分类，这简化了库存管理并改善了用户的搜索体验。
医疗保健：它通过解释医学影像（如 X 射线和 MRI）以及临床记录，支持医疗专业人员提供更准确和知情的诊断。
教育：PaliGemma 2 通过为图像生成标题并提供上下文信息，帮助教育工作者创建描述性且易于访问的学习材料。
内容创作：该模型自动化了为多媒体内容生成标题和视觉描述的过程，为创作者节省了时间。

Link to this section亲自试用：PaliGemma 2#

要试用 PaliGemma 2，你可以从 Hugging Face 的交互式演示开始。它让你能在图像标注和视觉问答等任务中探索其功能。只需上传一张图像，然后询问有关它的问题，或者请求对场景进行描述。

PaliGemma 2 演示

图 5. PaliGemma 2 演示（来源：Hugging Face）。

如果你想深入了解，可以按照以下方式进行实践：

预训练模型：你可以从 Hugging Face 和 Kaggle 等平台访问预训练模型和代码。这些资源提供了你开始使用该模型所需的一切。
Notebooks：有全面的文档和示例笔记本帮助你熟悉 PaliGemma 2。你可以从推理示例开始，并尝试在自己的数据集上针对特定任务微调模型。
集成：PaliGemma 2 与 Hugging Face Transformers、Keras、PyTorch、JAX 和 Gemma.cpp 等广泛使用的框架兼容，让你能轻松将其集成到现有的工作流程中。

Link to this sectionGoogle PaliGemma 2 的优缺点#

了解了如何开始使用 PaliGemma 2 后，让我们仔细看看在使用这些模型时需要注意的关键优势和缺陷。

以下是 PaliGemma 2 作为视觉语言模型的突出之处：

效率提升： 利用 Gemma 2 的优化架构，PaliGemma 2 在最大限度降低部署成本的同时提供了高性能。
增强的安全功能：PaliGemma 2 在其训练过程中包含了显著的安全改进，例如对预训练数据进行稳健过滤以减少偏见，以及根据安全基准进行严格评估。
针对较小配置的低延迟：3B 模型提供更快的推理时间，使其适用于速度至关重要的用例，例如电子商务产品推荐或实时支持系统。

同时，以下是 PaliGemma 2 可能面临限制的一些领域：

延迟：虽然功能强大，但更大的模型可能会遇到延迟问题，特别是在部署到需要即时响应的任务（如实时交互式 AI 系统）时。
对大型数据集的依赖： PaliGemma 2 的性能与其训练数据集的质量和多样性密切相关，这可能会限制其在训练数据中未包含的代表性不足的领域或语言中的有效性。
高资源需求：尽管经过优化，但 10B 和 28B 参数版本需要大量的计算能力，这使得资源有限的小型组织更难使用。