视觉 AI

Florence-2：微软最新的视觉语言模型

认识 Florence-2，这是微软的视觉语言模型，它提供了改进的对象检测、分割和零样本性能，且具有出色的效率。

ABAbirami Vina

6 min readJuly 26, 2024

2024 年 6 月，微软推出了 Florence-2，这是一种多模态视觉语言模型 (VLM)，旨在处理包括目标检测、分割、图像描述和定位在内的广泛任务。Florence-2 为零样本性能设定了新的基准，这意味着它可以在没有预先特定训练的情况下执行任务，并且比其他先进的视觉语言模型拥有更小的模型尺寸。

它不仅仅是又一个模型，Florence-2 的通用性和性能提升通过提高准确性并减少对大规模训练的需求，有潜力对各行各业产生重大影响。在本文中，我们将探索 Florence-2 的创新功能，将其性能与其他 VLM 进行比较，并探讨其潜在应用。

Link to this section什么是 Florence-2？#

Florence-2 可以在一个统一的框架内处理各种任务。该模型令人印象深刻的能力部分归功于其名为 FLD-5B 的庞大训练数据集。FLD-5B 在 1.26 亿张图像中包含了 54 亿条标注。这一综合数据集专门用于使 Florence-2 具备以高准确度和效率处理广泛视觉任务所需的能力。

以下是 Florence-2 所支持任务的详细介绍：

目标检测：它能够高精度地识别和定位图像中的物体。
分割：此任务涉及将图像分割成有意义的区域，以便于分析和解释。
图像描述：Florence-2 能够为图像生成描述性文字，提供背景和细节。
视觉定位：该模型可以将描述中的特定短语或词语与图像中的相应区域关联起来。
零样本性能：它可以在没有特定训练的情况下执行任务。

Florence-2 训练方式示意图

图 1. 了解 Florence-2 是如何训练的。

该模型支持基于文本和基于区域的任务。模型词汇表中添加了特殊的定位标记，用于涉及图像特定区域的任务。这些标记帮助模型理解不同的形状，例如物体周围的矩形（框表示）、四边形（四边框表示）和多边形（多边形表示）。该模型使用交叉熵损失方法进行训练，通过将预测结果与正确答案进行对比并相应地调整内部参数来学习。

Link to this section创建 FLD-5B 数据集#

FLD-5B 数据集包含不同类型的标注：文本描述、区域与文本对，以及文本、短语和区域的组合。它是通过一个涉及数据收集和标注的两步过程创建的。图像来源于 ImageNet-22k、Object 365、Open Images、Conceptual Captions 和 LAION 等流行数据集。FLD-5B 数据集中的标注大多是合成的，这意味着它们是自动生成的，而非手动标记。

创建 FLD-5B 数据集示意图

图 2. 创建 FLD-5B 数据集。

最初，专门从事特定任务（如目标检测或分割）的专业模型创建了这些标注。随后，通过过滤和增强流程确保标注详尽且准确。在去除噪声后，数据集经过了迭代精炼，利用 Florence-2 的输出持续更新和改进标注。

Link to this section了解 Florence-2 的模型架构#

Florence-2 的模型架构遵循序列到序列（sequence-to-sequence）学习方法。这意味着模型以逐步的方式处理输入序列（如带有文本提示的图像）并生成输出序列（如描述或标签）。在序列到序列框架中，每项任务都被视为一个翻译问题：模型接收输入图像和任务特定提示，并生成相应的输出。

Florence-2 视觉语言模型架构示意图

图 3. Florence-2 的视觉语言模型架构。

模型架构的核心是一个多模态编码器-解码器 Transformer，它结合了图像编码器和多模态编码器-解码器。名为 DaViT（数据高效视觉 Transformer）的图像编码器通过将输入图像转换为视觉令牌嵌入来处理图像，这些嵌入是捕捉空间（物体在哪里）和语义（物体是什么）信息的紧凑图像表示。这些视觉令牌随后与文本嵌入（文本的表示）相结合，使模型能够无缝融合文本和视觉数据。

Link to this sectionFlorence-2 与其他 VLM 的比较#

Florence-2 因其令人印象深刻的零样本能力在视觉语言模型中脱颖而出。与 PaliGemma 等依赖大量微调来适应各种任务的模型不同，Florence-2 开箱即用，效果出色。此外，Florence-2 能够与 GPT-4V 和 Flamingo 等大型模型竞争，这些大型模型通常具有更多的参数，但并不总能达到 Florence-2 的性能。例如，尽管 Kosmos-2 的参数数量超过 Florence-2 的两倍，但 Florence-2 仍取得了优于 Kosmos-2 的零样本结果。

在基准测试中，Florence-2 在 COCO 描述生成和指代理解等任务中表现出卓越的性能。它在 COCO 数据集的目标检测和分割任务中优于 PolyFormer 和 UNINEXT 等模型。对于性能和资源效率都至关重要的现实应用场景，它是一个极具竞争力的选择。

Link to this sectionFlorence-2 的应用#

Florence-2 可应用于许多不同的行业，如娱乐、无障碍辅助、教育等。让我们通过几个例子来深入了解。

Link to this section图像描述的应用#

当你在流媒体平台上决定看什么时，你可能会阅读电影简介来帮助选择。如果平台也能提供电影海报的详细描述会怎样？Florence-2 可以通过图像描述来实现这一目标，为图像生成描述性文字。Florence-2 可以生成电影海报的详细描述，使流媒体平台对视障用户更加友好。通过分析海报的视觉元素（如角色、场景和文字），Florence-2 可以创建传达海报内容和氛围的详细描述。下图展示了 Florence-2 在描述中能提供的细节水平。

Florence-2 生成的图像描述示例

图 4. Florence-2 生成的图像描述示例。

以下是图像描述有所帮助的其他示例：

电子商务：图像描述可以提供产品图像的详细描述，帮助顾客更清晰地了解产品特点和细节。
旅游与观光：它可以在旅游指南和应用程序中提供地标和景点的详细描述。
教育：图像描述可以标记和解释教育图像和图表，辅助教学和学习。
房地产：它可以提供房产图像的详细描述，突出显示其特色和便利设施，供潜在买家参考。

Link to this section烹饪时使用视觉定位#

Florence-2 也可用于丰富烹饪体验。例如，在线食谱可以使用 Florence-2 对复杂食谱图像的各个部分进行视觉定位和标记。视觉定位在此处的作用是将图像的特定部分与相应的描述性文字链接起来。每种配料和步骤都可以被准确标记和解释，使家庭厨师更容易按照食谱操作，并了解每个组件在菜肴中的作用。

使用 Florence-2 进行视觉定位的示例

图 5. 使用 Florence-2 进行视觉定位的示例。

Link to this section金融文档的区域性 OCR#

带有区域处理的 OCR 专注于从文档的特定区域提取文本，这在会计等领域非常有用。可以分析金融文档的指定区域，自动提取交易详情、账号和截止日期等重要信息。通过减少手动数据输入的需求，它能最大限度地减少错误并加快处理速度。金融机构可以使用它来简化发票处理、收据核对和支票结算等任务，从而实现更快的交易和更好的客户服务。

使用 Florence-2 进行区域 OCR 的示例

图 6. 使用 Florence-2 进行区域 OCR 提取的示例。

Link to this section工业应用中的区域分割#

区域分割涉及将图像划分为有意义的部分以进行重点分析和详细检查，这可以推动工业应用的发展，从而提高各种流程的精度和效率。通过聚焦图像中的特定区域，该技术允许对组件和产品进行详细检查和分析。在质量控制方面，它可以识别材料中的缺陷或不一致之处，例如裂纹或错位，确保只有顶级产品进入市场。

使用 Florence-2 进行基于区域的分割示例

图 7. 使用 Florence-2 进行区域分割的示例。

它还可以通过引导机器人手臂到达特定部件并优化组件的放置和组装，来改进自动化装配线。同样，在库存管理中，它有助于跟踪和监控货物的状况和位置，从而实现更高效的物流并减少停机时间。总体而言，区域分割提高了准确性和生产力，在工业环境中带来了成本节约和更高质量的产品。

Link to this section关键要点#

我们开始看到一种趋势，即 AI 模型在保持高性能的同时正变得越来越轻量化。Florence-2 标志着视觉语言模型向前迈出的重要一步。它能够处理目标检测、分割、图像描述和定位等各种任务，并具有令人印象深刻的零样本性能。尽管体积更小，但 Florence-2 高效且多功能，这使其在不同行业的应用中非常有用。像 Florence-2 这样的模型正在带来更多可能，扩大了 AI 创新的潜力。

通过访问我们的 GitHub 存储库并加入我们的社区来探索更多有关 AI 的信息。查看我们的解决方案页面，了解有关制造业和农业中 AI 应用的信息。🚀