Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

FastVLM: Apple представляет свою новую быструю модель визуального языка

Абирами Вина

4 мин чтения

8 августа 2025 г.

Apple представляет FastVLM на CVPR 2025. Эта vision-language модель с открытым исходным кодом оснащена кодировщиком FastViTHD, обеспечивающим до 85 × более быстрое время до первого токена.

На конференции CVPR 2025 компания Apple представила новую AI-модель с открытым исходным кодом под названием FastVLM. Она создана для понимания как изображений, так и языка и работает на устройствах Apple, таких как iPhone, iPad и Mac. Это означает, что она может быстро предоставлять интеллектуальные результаты, не отправляя ваши данные в облако.

Что делает FastVLM особенно интересным, так это его скорость и эффективность. Apple разработала новый vision encoder под названием FastViTHD, который помогает модели интерпретировать изображения высокого качества, используя при этом меньше памяти и энергии. Вся обработка происходит локально на устройстве, что приводит к более быстрому времени отклика, сохраняя при этом конфиденциальность пользователей.

В этой статье мы рассмотрим, как работает FastVLM, что отличает ее от других моделей, и почему этот релиз Apple может стать важным шагом вперед для повседневных приложений ИИ на ваших устройствах.

Понимание Vision Language Models (VLM)

Прежде чем мы углубимся в то, что делает FastVLM особенным, давайте разберемся, что означает «VLM» в его названии. Это относится к модели vision-language, которая предназначена для понимания и соединения визуального контента с языком.

VLM объединяют визуальное понимание и язык, позволяя им выполнять такие задачи, как описание фотографии, ответы на вопросы о скриншоте или извлечение текста из документа. Модели vision-language обычно работают в двух частях: одна обрабатывает изображение и преобразует его в данные, а другая интерпретирует эти данные для создания ответа, который вы можете прочитать или услышать.

Возможно, вы уже использовали этот вид инноваций в области ИИ, даже не осознавая этого. Приложения, которые сканируют чеки, считывают удостоверения личности, генерируют подписи к изображениям или помогают людям с ослабленным зрением взаимодействовать со своими экранами, часто полагаются на модели vision-language, работающие незаметно в фоновом режиме.

Что такое FastVLM?

Apple разработала FastVLM для выполнения тех же задач, что и другие модели vision-language, но с большей скоростью, повышенной конфиденциальностью и оптимизированной производительностью на собственных устройствах. Она может понимать содержимое изображения и отвечать текстом, но в отличие от многих моделей, которые полагаются на облачные серверы, FastVLM может работать полностью на вашем iPhone, iPad или Mac.

VLM обычно работают лучше с изображениями высокого разрешения. Например, как показано ниже, FastVLM мог правильно идентифицировать дорожный знак как «Проезд запрещен» только при наличии версии изображения с высоким разрешением. Однако входы с высоким разрешением обычно замедляют работу моделей. Именно здесь FastViTHD имеет значение.

Рис. 1. Производительность FastVLM на изображениях с низким и высоким разрешением. (Источник)

Новый vision-кодировщик Apple, FastViTHD, помогает FastVLM более эффективно обрабатывать изображения высокого качества, используя меньше памяти и энергии. В частности, FastViTHD достаточно легок, чтобы плавно работать даже на небольших устройствах.

Кроме того, FastVLM общедоступна в репозитории FastVLM GitHub, где разработчики могут получить доступ к исходному коду, внести изменения и использовать его в своих собственных приложениях в соответствии с условиями лицензии Apple.

Сравнение FastVLM с другими моделями VLM

По сравнению с другими моделями vision-language, FastVLM оптимизирована для работы на повседневных устройствах, таких как смартфоны и ноутбуки. В тестах производительности FastVLM генерировала свое первое слово или вывод до 85 раз быстрее, чем такие модели, как LLaVA-OneVision-0.5B. 

Рис. 2. Сравнение производительности FastVLM с другими моделями. (Источник)

Вот краткий обзор некоторых стандартных бенчмарков, по которым оценивался FastVLM:

  • DocVQA (Document Visual Question Answering): Этот бенчмарк оценивает, насколько хорошо модель может читать и понимать текстовую информацию в документах, таких как отсканированные формы или страницы.
  • TextVQA (визуальный вопрос-ответ на основе текста): Оценивает способность модели интерпретировать изображения, содержащие встроенный текст, и точно отвечать на связанные вопросы.
  • GQA (Graph Question Answering): Эта задача проверяет навыки рассуждения модели, требуя от нее понимания взаимосвязей между объектами и сценами внутри изображения.
  • MMMU (Massive Multi-discipline Multimodal Understanding) (Масштабное мультидисциплинарное мультимодальное понимание): Он измеряет производительность модели по широкому кругу академических предметов и форматов, сочетая визуальное и текстовое понимание.
  • SeedBench (стандартная оценка расширенных данных для бенчмаркинга): Этот бенчмарк исследует общие возможности модели в визуальном понимании и рассуждении в различных областях.

Во всех этих тестах FastVLM показала конкурентоспособные результаты, используя при этом меньше ресурсов. Она привносит практический визуальный AI в повседневные устройства, такие как телефоны, планшеты и ноутбуки.

Эффективный визуальный энкодер FastVLM: FastViTHD

Далее, давайте подробнее рассмотрим FastViTHD, кодировщик зрения, который играет решающую роль в производительности обработки изображений FastVLM.

Большинство визуальных языковых моделей разбивают изображение на тысячи мелких фрагментов, называемых токенами. Чем больше токенов, тем больше времени и энергии требуется модели для понимания изображения. Это может замедлить работу, особенно на телефонах или ноутбуках.

Рис. 3. Как vision encoder обрабатывает изображение. (Источник)

FastViTHD избегает замедления, которое возникает при обработке слишком большого количества токенов, используя их меньше, но при этом понимая все изображение. Он сочетает в себе два подхода: трансформеры, которые хорошо моделируют закономерности и взаимосвязи, и сверточные слои, которые эффективно обрабатывают визуальные данные. В результате получается система, которая работает быстрее и использует меньше памяти.

По данным Apple, FastViTHD до 3,4 раза меньше, чем некоторые традиционные визуальные энкодеры, при этом сохраняет высокую точность. Вместо того, чтобы полагаться на методы оптимизации модели, такие как усечение токенов (удаление менее важных патчей изображения для ускорения обработки), он достигает эффективности за счет более простой и оптимизированной архитектуры.

Варианты модели FastVLM и конвейер обучения

Apple выпустила FastVLM в трех различных размерах: 0,5B, 1,5B и 7B параметров (где «B» означает миллиард, что относится к количеству обучаемых весов в модели). Каждая версия предназначена для разных типов устройств. Модели меньшего размера могут работать на телефонах и планшетах, а более крупная модель 7B лучше подходит для настольных компьютеров или более ресурсоемких задач.

Это дает разработчикам возможность выбирать то, что лучше всего подходит для их приложений. Они могут создать что-то быстрое и легкое для мобильных устройств или что-то более сложное для крупных систем, используя при этом одну и ту же базовую архитектуру модели.

Apple обучила варианты модели FastVLM, используя конвейер LLaVA-1.5, фреймворк для согласования vision и языковых моделей. Для языкового компонента они оценили FastVLM, используя существующие модели с открытым исходным кодом, такие как Qwen и Vicuna, которые известны генерацией естественного и связного текста. Эта настройка позволяет FastVLM обрабатывать как простые, так и сложные изображения и создавать читаемые, релевантные ответы.

Значение FastVLM: эффективный подход Apple к ИИ

Возможно, вам интересно, почему эффективная обработка изображений FastVLM имеет значение? Все дело в том, насколько плавно приложения могут работать в режиме реального времени, не полагаясь на облако. FastVLM может обрабатывать изображения с высоким разрешением, до 1152 на 1152 пикселей, оставаясь при этом достаточно быстрым и легким для запуска непосредственно на вашем устройстве.

Это означает, что приложения могут описывать то, что видит камера, сканировать чеки по мере их захвата или реагировать на изменения на экране, сохраняя при этом все локально. Это особенно полезно в таких областях, как образование, специальные возможности (accessibility), производительность и фотография.

Поскольку FastViTHD эффективен даже при работе с большими изображениями, он помогает поддерживать быстродействие и охлаждение устройств. Он работает со всеми размерами моделей, включая самую маленькую, которая работает на iPhone начального уровня. Это означает, что одни и те же функции ИИ могут работать на телефонах, планшетах и компьютерах Mac.

Применение FastVLM

FastVLM может поддерживать широкий спектр приложений благодаря своим ключевым преимуществам, таким как скорость, эффективность и конфиденциальность на устройстве. Вот несколько способов его использования:

  • Чтение документов: Он может сканировать квитанции, формы или удостоверения личности и извлекать только релевантную информацию. Он может фокусироваться на определенных областях изображения, что полезно для приложений, которым требуется быстрое и точное извлечение текста.
  • Подписи к изображениям: Анализируя фотографию, он может создать четкое описание того, что находится на изображении. Это поддерживает функции в приложениях камеры, фотогалереях или любом инструменте, который выигрывает от визуального понимания в реальном времени.
  • Поддержка специальных возможностей: FastVLM может описывать содержимое экрана для пользователей, которые слепы или имеют слабое зрение, что упрощает навигацию и использование кнопок, меню и элементов макета.

AI-ассистенты на устройстве: FastVLM хорошо работает с AI-ассистентами, которым необходимо быстро понимать, что находится на экране. Поскольку он работает непосредственно на устройстве и обеспечивает конфиденциальность данных, он может помогать в таких задачах, как чтение текста, идентификация кнопок или значков и руководство пользователями в режиме реального времени без необходимости отправлять информацию в облако.

Рис. 4. FastVLM можно использовать для распознавания текста и визуального ответа на вопросы. (Источник)

Основные выводы

FastVLM предоставляет возможности AI для обработки визуального языка на устройствах Apple, сочетая скорость, конфиденциальность и эффективность. Благодаря своей легкой конструкции и выпуску с открытым исходным кодом, он обеспечивает понимание изображений в реальном времени в мобильных и настольных приложениях. 

Это помогает сделать ИИ более практичным и доступным для повседневного использования и дает разработчикам прочную основу для создания полезных, ориентированных на конфиденциальность приложений. Заглядывая вперед, вполне вероятно, что модели vision-language будут играть важную роль в том, как мы взаимодействуем с технологиями, делая ИИ более отзывчивым, учитывающим контекст и полезным в повседневных ситуациях.

Изучите наш репозиторий на GitHub, чтобы узнать больше об ИИ. Присоединяйтесь к нашему активному сообществу и открывайте для себя инновации в таких секторах, как ИИ в автомобильной промышленности и Vision AI в производстве. Чтобы начать работу с компьютерным зрением уже сегодня, ознакомьтесь с нашими вариантами лицензирования.

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена