FastVLM: Apple представила новую быструю языковую модель зрения

Абирами Вина

4 мин. чтения

8 августа 2025 г.

Компания Apple представила FastVLM на выставке CVPR 2025. Эта модель языка технического зрения с открытым исходным кодом оснащена кодировщиком FastViTHD, обеспечивающим до 85 × более быстрое время получения первого токена.

На конференции CVPR 2025 компания Apple представила новую модель ИИ с открытым исходным кодом под названием FastVLM. Она создана для понимания как изображений, так и языка, и работает на устройствах Apple, таких как iPhone, iPad и Mac. Это означает, что она может быстро выдавать интеллектуальные результаты, не отправляя данные в облако.

Что делает FastVLM особенно интересным, так это его скорость и эффективность. Apple разработала новый кодировщик зрения под названием FastViTHD, который помогает модели интерпретировать высококачественные изображения, используя при этом меньше памяти и энергии. Вся обработка происходит локально на устройстве, что позволяет ускорить время отклика и сохранить конфиденциальность пользователя.

В этой статье мы рассмотрим, как работает FastVLM, что отличает его от других, и почему этот релиз Apple может стать значительным шагом вперед для повседневных приложений ИИ на ваших устройствах.

Понимание языковых моделей зрения (VLM)

Прежде чем перейти к рассмотрению особенностей FastVLM, давайте разберемся, что означает слово "VLM" в его названии. Это модель языка зрения, которая предназначена для понимания и связи визуального контента с языком.

VLM объединяют визуальное понимание и язык, что позволяет им выполнять такие задачи, как описание фотографии, ответы на вопросы по скриншоту или извлечение текста из документа. Зрительно-языковые модели обычно состоят из двух частей: одна обрабатывает изображение и преобразует его в данные, а другая интерпретирует эти данные, генерируя ответ, который можно прочитать или услышать.

Возможно, вы уже используете подобные инновации ИИ, даже не подозревая об этом. Приложения, которые сканируют чеки, считывают идентификационные карты, генерируют подписи к изображениям или помогают слабовидящим людям взаимодействовать с экранами, часто опираются на модели языка зрения, работающие тихо в фоновом режиме.

Что такое FastVLM?

Apple создала FastVLM для выполнения тех же задач, что и другие модели языка зрения, но с большей скоростью, повышенной конфиденциальностью и оптимизированной производительностью на собственных устройствах. Она может понимать содержимое изображения и отвечать на него текстом, но в отличие от многих моделей, которые полагаются на облачные серверы, FastVLM может работать полностью на вашем iPhone, iPad или Mac.

Как правило, VLM лучше работают с изображениями высокого разрешения. Например, как показано ниже, FastVLM смог правильно идентифицировать уличный знак "Не входить", только когда ему была предоставлена версия изображения с высоким разрешением. Однако при использовании изображений высокого разрешения модели обычно работают медленнее. Именно здесь FastViTHD играет важную роль.

Рис. 1. Производительность FastVLM на изображениях низкого и высокого разрешения.(Источник)

Новый кодировщик зрения Apple, FastViTHD, помогает FastVLM обрабатывать высококачественные изображения более эффективно, используя меньше памяти и энергии. В частности, FastViTHD достаточно легкий, чтобы плавно работать даже на небольших устройствах.

Кроме того, FastVLM находится в открытом доступе в репозитории FastVLM GitHub, где разработчики могут получить доступ к исходному коду, вносить изменения и использовать его в своих приложениях в соответствии с условиями лицензии Apple.

Сравнение FastVLM с другими моделями VLM

По сравнению с другими моделями языка зрения, FastVLM оптимизирован для работы на повседневных устройствах, таких как смартфоны и ноутбуки. В тестах на производительность FastVLM генерирует первое слово или вывод в 85 раз быстрее, чем такие модели, как LLaVA-OneVision-0.5B. 

Рис. 2. Сравнение производительности FastVLM с другими моделями.(Источник)

Вот обзор некоторых стандартных бенчмарков, на которых оценивался FastVLM:

  • DocVQA (Document Visual Question Answering): Этот критерий оценивает, насколько хорошо модель может читать и понимать текстовую информацию в документах, таких как отсканированные формы или страницы.
  • TextVQA (Text-based Visual Question Answering): Оценивает способность модели интерпретировать изображения, содержащие встроенный текст, и точно отвечать на соответствующие вопросы.
  • GQA (Graph Question Answering): Это задание проверяет способность модели к рассуждению, требуя от нее понимания взаимосвязей между объектами и сценами на изображении.
  • MMMU (Massive Multi-discipline Multimodal Understanding): Измеряет производительность модели в широком диапазоне академических предметов и форматов, сочетая визуальное и текстовое понимание.
  • SeedBench (стандартная оценка расширенных данных для бенчмаркинга): Этот бенчмарк исследует общие возможности модели в визуальном понимании и рассуждениях в различных областях.

В этих бенчмарках FastVLM показал конкурентоспособные результаты при меньшем потреблении ресурсов. Он привносит практичный визуальный ИИ в повседневные устройства, такие как телефоны, планшеты и ноутбуки.

Эффективный кодировщик технического зрения FastVLM: FastViTHD

Далее рассмотрим FastViTHD, кодер технического зрения, который играет решающую роль в производительности обработки изображений в FastVLM.

Большинство языковых моделей зрения разбивают изображение на тысячи маленьких фрагментов, называемых лексемами. Чем больше лексем, тем больше времени и мощности требуется модели для понимания изображения. Это может замедлить работу, особенно на телефонах или ноутбуках.

Рис. 3. Как кодировщик зрения обрабатывает изображение.(Источник)

FastViTHD позволяет избежать замедления, возникающего при обработке большого количества лексем, используя меньшее их количество, но при этом понимая все изображение. Он сочетает в себе два подхода: трансформаторы, которые хорошо моделируют паттерны и взаимосвязи, и конволюционные слои, которые эффективно обрабатывают визуальные данные. В результате система работает быстрее и использует меньше памяти.

По словам Apple, FastViTHD в 3,4 раза меньше, чем некоторые традиционные кодировщики зрения, при этом сохраняя высокую точность. Вместо того чтобы полагаться на методы оптимизации модели, такие как обрезка маркеров (удаление менее важных участков изображения для ускорения обработки), он достигает эффективности за счет более простой и оптимизированной архитектуры.

Варианты моделей FastVLM и конвейер обучения

Apple выпустила FastVLM в трех вариантах: 0,5B, 1,5B и 7B параметров (где "B" означает миллиард, что означает количество обучаемых весов в модели). Каждая версия предназначена для разных типов устройств. Меньшие модели могут работать на телефонах и планшетах, в то время как большая модель с параметрами 7B лучше подходит для настольных компьютеров или более сложных задач.

Это дает разработчикам возможность выбирать, что лучше всего подходит для их приложений. Они могут создать что-то быстрое и легкое для мобильных устройств или что-то более сложное для больших систем, используя при этом одну и ту же базовую архитектуру модели.

Apple обучила варианты модели FastVLM с помощью конвейера LLaVA-1.5 - структуры для согласования моделей зрения и языка. Для языкового компонента FastVLM оценивался с помощью существующих моделей с открытым исходным кодом, таких как Qwen и Vicuna, которые известны тем, что генерируют естественный и связный текст. Такая настройка позволяет FastVLM обрабатывать как простые, так и сложные изображения и выдавать читаемые, релевантные ответы.

Значение FastVLM: эффективный подход Apple к искусственному интеллекту

Возможно, вы задаетесь вопросом, почему эффективная обработка изображений FastVLM имеет большое значение? Все дело в том, насколько плавно приложения могут работать в режиме реального времени, не полагаясь на облако. FastVLM может обрабатывать изображения высокого разрешения, вплоть до 1152 на 1152 пикселей, оставаясь при этом достаточно быстрым и легким для работы непосредственно на вашем устройстве.

Это означает, что приложения могут описывать то, что видит камера, сканировать квитанции по мере их получения или реагировать на изменения на экране, сохраняя при этом локальность. Это особенно полезно для таких сфер, как образование, доступность, производительность и фотография.

Поскольку FastViTHD работает эффективно даже при работе с большими изображениями, он помогает сохранить отзывчивость устройств. Он работает со всеми моделями, включая самую маленькую, которая установлена на iPhone начального уровня. Это означает, что одни и те же функции искусственного интеллекта могут работать на телефонах, планшетах и компьютерах Mac.

Области применения FastVLM

FastVLM может использоваться в самых разных приложениях благодаря таким ключевым преимуществам, как скорость, эффективность и конфиденциальность на устройстве. Вот несколько способов его использования:

  • Чтение документов: Он может сканировать квитанции, бланки или удостоверения личности и извлекать только необходимую информацию. Он может фокусироваться на определенных областях изображения, что полезно для приложений, которым требуется быстрое и точное извлечение текста.
  • Подписи к изображениям: Анализируя фотографию, он может генерировать четкое описание того, что на ней изображено. Это поддерживает функции в приложениях для камеры, фотогалереях или любых других инструментах, которые выигрывают от визуального понимания в реальном времени.
  • Поддержка доступности: FastVLM может описывать экранное содержимое для слепых или слабовидящих пользователей, облегчая навигацию и использование кнопок, меню и элементов макета.

ИИ-ассистенты на устройствах: FastVLM может хорошо работать с ассистентами ИИ, которым необходимо быстро понимать, что находится на экране. Поскольку он работает непосредственно на устройстве и сохраняет конфиденциальность данных, он может помочь в решении таких задач, как чтение текста, определение кнопок или иконок и руководство пользователями в режиме реального времени без необходимости отправки информации в облако.

Рис. 4. FastVLM может использоваться для распознавания текста и визуального ответа на вопросы.(Источник)

Основные выводы

FastVLM - это искусственный интеллект на языке зрения для устройств Apple, сочетающий в себе скорость, конфиденциальность и эффективность. Благодаря облегченному дизайну и открытому исходному коду он обеспечивает понимание изображений в реальном времени в мобильных и настольных приложениях. 

Это помогает сделать ИИ более практичным и доступным для повседневного использования и дает разработчикам прочную основу для создания полезных приложений, ориентированных на конфиденциальность. В будущем, вероятно, модели языка зрения будут играть важную роль в нашем взаимодействии с технологиями, делая ИИ более отзывчивым, учитывающим контекст и полезным в повседневных ситуациях.

Изучите наш репозиторий GitHub, чтобы узнать больше об искусственном интеллекте. Присоединяйтесь к нашему активному сообществу и откройте для себя инновации в таких отраслях, как ИИ в автомобильной промышленности и ИИ в производстве. Чтобы начать работать с компьютерным зрением уже сегодня, ознакомьтесь с нашими вариантами лицензирования.

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена