遇见 YOLO26: 下一代视觉 AI。
Ultralytics
视觉 AI

FastVLM:Apple 推出其全新的快速视觉语言模型

Apple 在 CVPR 2025 上发布了 FastVLM。这款开源视觉语言模型采用了 FastViTHD 编码器,实现高达 85 倍的首次 token 生成速度提升。

ABAbirami Vina
4 min read
Apple 的 FastVLM 快速视觉语言模型

CVPR 2025 大会上,Apple 推出了一款名为 FastVLM 的开源 AI 模型。它旨在理解图像和语言,并可在 iPhone、iPad 和 Mac 等 Apple 设备上运行。这意味着它可以快速提供智能结果,而无需将你的数据发送到云端。

FastVLM 最引人注目的是它的速度和效率。Apple 开发了一种名为 FastViTHD 的新型视觉编码器,它能帮助模型在占用更少内存和功耗的情况下解析高质量图像。所有处理都在设备本地进行,从而在保护用户隐私的同时获得更快的响应时间。

在本文中,我们将探讨 FastVLM 的工作原理、独特之处,以及为什么这次 Apple 的发布可能是日常设备 AI 应用迈出的重要一步。

Link to this section了解视觉语言模型 (VLM)#

在深入了解 FastVLM 的特别之处前,我们先来看看其名称中“VLM”的含义。它指的是 视觉语言模型,旨在理解视觉内容并将其与语言联系起来。

VLM 将视觉理解与语言结合在一起,使其能够执行诸如描述照片、回答有关截图的问题或从文档中提取文本等任务。视觉语言模型通常分为两部分工作:一部分处理图像并将其转换为数据,另一部分解析这些数据以生成你可阅读或听到的响应。

你可能已经在不知不觉中使用了这种 AI 创新。扫描收据、读取身份证、生成图像说明或帮助视障人士与屏幕交互的应用程序,通常都依赖于在后台静默运行的视觉语言模型。

Link to this section什么是 FastVLM?#

Apple 构建 FastVLM 是为了执行与其他视觉语言模型相同的任务,但具有更高的速度、更强的隐私性和在其自有设备上优化的性能。它能理解图像内容并用文本回答,与许多依赖云服务器的模型不同,FastVLM 可以完全在你的 iPhone、iPad 或 Mac 上运行。

VLM 通常在处理高分辨率图像时表现更好。例如,如下图所示,FastVLM 只有在获得高分辨率图像时才能正确地将路标识别为“禁止进入”。然而,高分辨率输入通常会减慢模型速度。这正是 FastViTHD 发挥作用的地方。

FastVLM 在低分辨率与高分辨率图像上的性能

图 1. FastVLM 在低分辨率与高分辨率图像上的表现。(来源)

Apple 的新型视觉编码器 FastViTHD 帮助 FastVLM 更高效地处理高质量图像,使用更少的内存和功耗。具体而言,FastViTHD 非常轻量,即使在较小的设备上也能流畅运行。

此外,FastVLM 已在 FastVLM GitHub 存储库上公开发布,开发者可以在该处获取源代码、进行更改,并根据 Apple 的许可条款在自己的应用中使用它。

Link to this sectionFastVLM 与其他 VLM 模型的比较#

与其他视觉语言模型相比,FastVLM 经过优化,可在智能手机和笔记本电脑等日常设备上运行。在性能测试中,FastVLM 生成第一个单词或输出的速度比 LLaVA-OneVision-0.5B 等模型快 85 倍。

比较 FastVLM 与其他模型的性能

图 2. 将 FastVLM 的性能与其他模型进行比较。(来源)

以下是 FastVLM 已评估的一些标准基准测试概览:

  • DocVQA(文档视觉问答): 此基准测试评估模型阅读和理解文档(如扫描表单或页面)中文本信息的能力。
  • TextVQA(基于文本的视觉问答): 它评估模型解析包含嵌入文本的图像并准确回答相关问题的能力。
  • GQA(图谱问答): 此任务通过要求模型理解图像中对象与场景之间的关系来测试其推理能力。
  • MMMU(大规模多学科多模态理解): 它衡量模型在结合视觉和文本理解的广泛学科和格式中的表现。
  • SeedBench(基准测试增强数据的标准评估): 该基准测试探索模型在多个领域的视觉理解和推理方面的通用能力。

在这些基准测试中,FastVLM 在使用更少资源的情况下取得了具有竞争力的结果。它将实用的视觉 AI 带到了手机、平板电脑和笔记本电脑等 日常设备上。

Link to this sectionFastVLM 的高效视觉编码器:FastViTHD#

接下来,让我们仔细看看 FastViTHD,它是 FastVLM 图像处理性能中的关键视觉编码器。

大多数视觉语言模型将图像拆分为数千个称为 token 的小块。token 越多,模型理解图像所需的时间和功耗就越多。这可能会导致运行变慢,尤其是在手机或笔记本电脑上。

视觉编码器如何处理图像

图 3. 视觉编码器如何处理图像。(来源)

FastViTHD 通过使用较少的 token 来避免处理过多 token 导致的减速,同时仍能理解完整图像。它结合了两种方法:擅长建模模式和关系的 Transformer,以及高效处理视觉数据的 卷积层。其结果是一个运行更快且内存占用更少的系统。

据 Apple 称,FastViTHD 比一些传统视觉编码器小 3.4 倍,同时仍保持高精度。它并没有依赖 token 剪枝(移除不重要的图像块以加速处理)等模型优化技术,而是通过更简单、更精简的架构实现了高效。

Link to this sectionFastVLM 的模型变体与训练流程#

Apple 发布了三种不同大小的 FastVLM 模型:0.5B、1.5B 和 7B 参数(“B”代表十亿,指模型中可训练权重的数量)。每个版本旨在适配不同类型的设备。较小的模型可以在手机和平板电脑上运行,而较大的 7B 模型更适合台式机或要求更高的任务。

这为开发者提供了灵活性,可以选择最适合其应用的方案。他们可以为移动端构建快速轻量的应用,也可以为大型系统构建更复杂的应用,所有这些都使用相同的底层模型架构。

Apple 使用 LLaVA-1.5 流程训练了 FastVLM 模型变体,这是一个用于对齐视觉和 语言模型的框架。对于语言组件,他们使用现有的开源模型(如 Qwen 和 Vicuna)对 FastVLM 进行了评估,这些模型以生成自然连贯的文本而闻名。这种配置使 FastVLM 能够处理简单和复杂的图像,并生成可读且相关的响应。

Link to this sectionFastVLM 的意义:Apple 对 AI 的高效实践#

你可能想知道,为什么 FastVLM 的高效图像处理很重要?这归结于应用程序在不依赖云的情况下实时运行的流畅程度。FastVLM 可以处理高达 1152 x 1152 像素的高分辨率图像,同时保持快速且轻量,足以直接在你的设备上运行。

这意味着应用程序可以描述摄像头看到的内容、在捕获时扫描收据或响应屏幕上的变化,同时保持所有操作在本地进行。这对于教育、无障碍功能、生产力和摄影等领域特别有帮助。

由于 FastViTHD 在处理大图像时也很高效,它有助于保持设备的响应速度并降低发热。它适用于所有模型大小,包括可在入门级 iPhone 上运行的最小模型。这意味着相同的 AI 功能可以在手机、平板电脑和 Mac 上跨设备运行。

Link to this sectionFastVLM 的应用#

得益于其速度、效率和设备端隐私等核心优势,FastVLM 可以为广泛的应用提供支持。以下是它的一些使用方式:

  • 阅读文档: 它可以扫描收据、表单或身份证件并提取相关信息。它可以专注于图像中的特定区域,这对于需要快速准确 文本提取 的应用程序非常有用。

  • 图像说明: 通过分析照片,它可以生成图像内容的清晰描述。这支持了相机应用、相册或任何受益于实时视觉理解的工具中的功能。

  • 无障碍支持: FastVLM 可以为盲人或视障用户描述屏幕内容,使按钮、菜单和布局元素更易于导航和使用。

  • 设备端 AI 助手: FastVLM 可以与需要快速理解屏幕内容的 AI 助手良好协作。由于它直接在设备上运行并保护数据隐私,它可以在无需发送信息到云端的情况下,辅助完成读取文本、识别按钮或图标以及实时引导用户等任务。

FastVLM 可用于文本识别和视觉问答

图 4. FastVLM 可用于文本识别和视觉问答。(来源)

Link to this section关键要点#

FastVLM 将设备端视觉语言 AI 带入 Apple 设备,集速度、隐私和效率于一体。凭借其轻量化设计和开源发布,它实现了跨移动端和桌面应用的的实时图像理解。

这有助于使 AI 更实用且更易于日常使用,并为开发者构建有用且注重隐私的应用程序提供了坚实的基础。展望未来,视觉语言模型很可能会在我们与技术的交互方式中发挥重要作用,使 AI 在日常情境中响应更迅速、更具情境感知能力且更有帮助。

浏览我们的 GitHub 存储库 以了解更多关于 AI 的信息。加入我们的活跃 社区,发现 汽车行业 AI制造业视觉 AI 等领域的创新。若要立即开始使用计算机视觉,请查看我们的 许可选项

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。
了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。
了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。
了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。
了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。
了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。
了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。
了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅