在CVPR 2025 大会上,苹果公司推出了一款名为 FastVLM 的全新开源人工智能模型。该模型可理解图像和语言,可在 iPhone、iPad 和 Mac 等苹果设备上运行。这意味着它可以快速提供智能结果,而无需将数据发送到云端。
FastVLM 的特别之处在于它的快速和高效。苹果公司开发了一种名为 FastViTHD 的新型视觉编码器,它可以帮助模型在使用较少内存和电力的情况下解释高质量图像。所有处理都在设备本地进行,因此响应时间更快,同时保护了用户隐私。
在本文中,我们将探讨 FastVLM 的工作原理、它的与众不同之处,以及为什么苹果发布的这一版本会为设备上的日常人工智能应用向前迈出重要一步。
在深入了解 FastVLM 的特别之处之前,让我们先来了解一下其名称中的 "VLM "代表什么意思。它指的是视觉语言模型,旨在理解视觉内容并将其与语言联系起来。
视觉语言模型将视觉理解和语言结合在一起,使其能够执行描述照片、回答有关截图的问题或从文档中提取文本等任务。视觉语言模型通常由两部分组成:一部分处理图像并将其转换为数据,另一部分则解释这些数据,以生成您可以阅读或听到的响应。
您可能已经在不知不觉中使用了这种人工智能创新。扫描收据、读取身份证、生成图片说明或帮助低视力者与屏幕互动的应用程序通常都依赖于在后台悄悄运行的视觉语言模型。
苹果公司构建的 FastVLM 可执行与其他视觉语言模型相同的任务,但速度更快、隐私性更强,并可在自己的设备上优化性能。它可以理解图像内容并用文字做出反应,但与许多依赖云服务器的模型不同,FastVLM 可以完全在 iPhone、iPad 或 Mac 上运行。
VLM 在使用高分辨率图像时通常表现更好。例如,如下图所示,FastVLM 只有在得到高分辨率版本的图像时,才能正确地将路标识别为 "请勿进入"。但是,高分辨率输入通常会降低模型的速度。这就是 FastViTHD 发挥作用的地方。
Apple 的新视觉编码器 FastViTHD 可帮助 FastVLM 更高效地处理高质量图像,同时使用更少的内存和功耗。特别是,FastViTHD 非常轻巧,即使在较小的设备上也能流畅运行。
此外,FastVLM 可在 FastVLM GitHub 存储库中公开获取,开发人员可以访问源代码,进行修改,并根据苹果公司的许可条款在自己的应用程序中使用。
与其他视觉语言模型相比,FastVLM 经过优化,可在智能手机和笔记本电脑等日常设备上运行。在性能测试中,FastVLM 生成第一个单词或输出的速度比 LLaVA-OneVision-0.5B 等模型快 85 倍。
下面是对 FastVLM 进行评估的一些标准基准:
在这些基准测试中,FastVLM 在使用较少资源的情况下取得了具有竞争力的结果。它为手机、平板电脑和笔记本电脑等日常设备带来了实用的视觉人工智能。
接下来,让我们详细了解一下 FastViTHD,它是视觉编码器,在 FastVLM 的图像处理性能中发挥着至关重要的作用。
大多数视觉语言模型都会将图像分割成成千上万个称为标记的小块。标记越多,模型理解图像所需的时间和功率就越大。这可能会导致速度变慢,尤其是在手机或笔记本电脑上。
FastViTHD 在理解完整图像的同时,通过使用较少的标记来避免因处理过多标记而导致的速度减慢。它结合了两种方法:善于建立模式和关系模型的变换器和高效处理视觉数据的卷积层。因此,该系统运行速度更快,占用内存更少。
据苹果公司称,FastViTHD的体积比某些传统视觉编码器小 3.4 倍,但仍能保持较高的精度。它不依赖于令牌剪枝等模型优化技术(删除不重要的图像片段以加快处理速度),而是通过更简单、更精简的架构来实现高效。
苹果公司发布了三种不同规模的 FastVLM:参数分别为 0.5B、1.5B 和 7B(其中 "B "代表十亿,指模型中可训练权重的数量)。每个版本的设计都适用于不同类型的设备。较小的模型可以在手机和平板电脑上运行,而较大的 7B 模型则更适合台式机或要求更高的任务。
这让开发人员可以灵活地选择最适合自己的应用程序。他们可以为移动设备构建快速、轻量级的应用程序,也可以为大型系统构建更复杂的应用程序,所有这些都使用相同的底层模型架构。
Apple 使用 LLaVA-1.5 管道(一个用于调整视觉和语言模型的框架)训练了 FastVLM 模型变体。对于语言组件,他们使用 Qwen 和 Vicuna 等现有开源模型对 FastVLM 进行了评估,这些模型以生成自然、连贯的文本而著称。这种设置使FastVLM能够处理简单和复杂的图像,并生成可读的相关响应。
您可能想知道,FastVLM 的高效图像处理为何如此重要?这归根结底是因为应用程序可以在不依赖云的情况下实时流畅地工作。FastVLM 可以处理高分辨率图像,最大分辨率可达 1152 x 1152 像素,同时速度快、重量轻,可以直接在设备上运行。
这意味着应用程序可以描述摄像头所看到的内容,在捕获收据时对其进行扫描,或对屏幕上的变化做出响应,同时保持所有内容都是本地的。这对教育、无障碍、生产力和摄影等领域尤其有帮助。
由于 FastViTHD 即使在处理大图像时也很高效,因此它有助于保持设备的响应速度和运行速度。它适用于所有尺寸的机型,包括在入门级 iPhone 上运行的最小机型。这意味着相同的人工智能功能可以在手机、平板电脑和 Mac 上运行。
FastVLM 具有速度快、效率高、可保护设备隐私等主要优势,可支持多种应用。以下是几种使用方法:
设备上的人工智能助手: FastVLM可与需要快速理解屏幕内容的人工智能助手配合使用。由于它可以直接在设备上运行并保持数据私密,因此可以帮助完成阅读文本、识别按钮或图标以及实时引导用户等任务,而无需将信息发送到云端。
FastVLM 为苹果设备带来了设备上的视觉语言人工智能,集速度、隐私和效率于一身。凭借其轻量级设计和开源发布,它可以在移动和桌面应用程序中实现实时图像理解。
这有助于使人工智能在日常使用中更加实用和易用,并为开发人员构建有用的、注重隐私的应用程序奠定坚实的基础。展望未来,视觉语言模型很可能会在我们与技术互动的过程中发挥重要作用,使人工智能在日常情况下更灵敏、更能感知上下文、更有帮助。
探索我们的GitHub 资料库,了解有关人工智能的更多信息。加入我们活跃的社区,发现汽车行业中的人工智能和制造业中的视觉人工智能等领域的创新。要立即开始使用计算机视觉,请查看我们的许可选项。