Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Vision AI

FastVLM: Apple представляет свою новую быструю мультимодальную модель

Apple представляет FastVLM на конференции CVPR 2025. Эта модель зрения-языка с открытым исходным кодом оснащена энкодером FastViTHD, обеспечивающим до 85 раз более быстрое время получения первого токена.

АБАбирами Вина
4 min read
Быстрая мультимодальная модель FastVLM от Apple

На конференции CVPR 2025 Apple представила новую нейросеть с открытым кодом под названием FastVLM. Она создана для понимания изображений и текста и работает на устройствах Apple, таких как iPhone, iPad и Mac. Это значит, что она способна быстро выдавать «умные» результаты без отправки твоих данных в облако.

Что делает FastVLM особенно интересной, так это её скорость и эффективность. Apple разработала новый визуальный энкодер FastViTHD, который помогает модели интерпретировать высококачественные изображения, потребляя при этом меньше памяти и энергии. Вся обработка происходит локально на устройстве, что обеспечивает быстрый отклик при сохранении конфиденциальности твоих данных.

В этой статье мы разберем, как работает FastVLM, в чем её уникальность и почему этот релиз от Apple может стать важным шагом вперед для повседневных ИИ-приложений на твоих устройствах.

Link to this sectionЧто такое мультимодальные модели (VLM)#

Прежде чем мы перейдем к тому, что делает FastVLM особенной, давай разберемся, что означает «VLM» в названии. Это мультимодальная модель, которая спроектирована так, чтобы понимать визуальный контент и связывать его с языком.

VLM объединяют визуальное восприятие и язык, позволяя выполнять такие задачи, как описание фото, ответы на вопросы о скриншоте или извлечение текста из документа. Обычно такие модели работают в две части: одна обрабатывает изображение и превращает его в данные, а вторая интерпретирует их, чтобы сгенерировать понятный тебе ответ.

Возможно, ты уже пользовался подобными инновациями, даже не осознавая этого. Приложения, которые сканируют чеки, считывают ID-карты, создают описания к фото или помогают слабовидящим людям взаимодействовать с экраном, часто полагаются на VLM, незаметно работающие в фоновом режиме.

Link to this sectionЧто такое FastVLM?#

Apple создала FastVLM для выполнения тех же задач, что и другие подобные модели, но с большей скоростью, повышенной конфиденциальностью и оптимизацией для работы на собственных устройствах. Она может понимать содержание изображения и отвечать текстом, но в отличие от многих моделей, зависящих от облачных серверов, FastVLM может работать полностью на твоем iPhone, iPad или Mac.

Как правило, VLM лучше работают с изображениями высокого разрешения. Например, как показано ниже, FastVLM могла корректно распознать дорожный знак «Въезд запрещен» только при подаче изображения в высоком качестве. Однако ввод в высоком разрешении обычно замедляет работу моделей. Именно здесь FastViTHD меняет ситуацию.

Производительность FastVLM на изображениях с низким и высоким разрешением

Рис. 1. Производительность FastVLM на изображениях низкого и высокого разрешения. (Источник)

Новый визуальный энкодер Apple, FastViTHD, помогает FastVLM обрабатывать изображения высокого качества эффективнее, используя меньше памяти и питания. В частности, FastViTHD достаточно легкий, чтобы плавно работать даже на компактных устройствах.

Кроме того, FastVLM доступна публично в репозитории FastVLM на GitHub, где разработчики могут получить доступ к исходному коду, вносить изменения и использовать её в своих приложениях в соответствии с лицензионными условиями Apple.

Link to this sectionСравнение FastVLM с другими VLM#

По сравнению с другими мультимодальными моделями, FastVLM оптимизирована для запуска на повседневных устройствах, таких как смартфоны и ноутбуки. В тестах производительности FastVLM генерировала первое слово или результат до 85 раз быстрее, чем модели типа LLaVA-OneVision-0.5B.

Сравнение производительности FastVLM с другими моделями

Рис. 2. Сравнение производительности FastVLM с другими моделями. (Источник)

Вот краткий обзор некоторых стандартных бенчмарков, на которых тестировалась FastVLM:

  • DocVQA (Document Visual Question Answering): этот бенчмарк оценивает, насколько хорошо модель может читать и понимать текстовую информацию в документах, например, в отсканированных формах или на страницах.
  • TextVQA (Text-based Visual Question Answering): оценивает способность модели интерпретировать изображения, содержащие встроенный текст, и точно отвечать на связанные с ними вопросы.
  • GQA (Graph Question Answering): эта задача проверяет навыки рассуждения модели, требуя понимания связей между объектами и сценами на изображении.
  • MMMU (Massive Multi-discipline Multimodal Understanding): измеряет эффективность работы модели в широком спектре академических дисциплин и форматов, сочетая визуальное и текстовое понимание.
  • SeedBench (Standard Evaluation of Enhanced Data for Benchmarking): этот бенчмарк исследует общие возможности модели в визуальном понимании и рассуждении в различных доменах.

В этих бенчмарках FastVLM показала конкурентоспособные результаты при меньших затратах ресурсов. Она делает практический визуальный ИИ доступным для повседневных устройств, таких как телефоны, планшеты и ноутбуки.

Link to this sectionЭффективный визуальный энкодер FastVLM: FastViTHD#

Давай теперь подробнее рассмотрим FastViTHD, визуальный энкодер, который играет важнейшую роль в производительности обработки изображений FastVLM.

Большинство мультимодальных моделей разбивают изображение на тысячи мелких фрагментов, называемых токенами. Чем больше токенов, тем больше времени и энергии нужно модели для понимания изображения. Это может замедлять работу, особенно на телефонах или ноутбуках.

Как визуальный энкодер обрабатывает изображение

Рис. 3. Как визуальный энкодер обрабатывает изображение. (Источник)

FastViTHD позволяет избежать замедления, возникающего при обработке слишком большого количества токенов, используя их меньшее число, при этом полноценно понимая всё изображение. Он сочетает в себе два подхода: Transformer, которые хорошо моделируют паттерны и связи, и convolutional layers, которые эффективно обрабатывают визуальные данные. В результате система работает быстрее и потребляет меньше памяти.

По словам Apple, FastViTHD до 3,4 раз меньше некоторых традиционных визуальных энкодеров, сохраняя при этом высокую точность. Вместо того чтобы полагаться на методы оптимизации моделей, такие как отсечение токенов (удаление менее важных фрагментов изображения для ускорения обработки), он достигает эффективности за счет более простой и оптимизированной архитектуры.

Link to this sectionВарианты модели FastVLM и конвейер обучения#

Apple выпустила FastVLM в трех размерах: 0.5B, 1.5B и 7B параметров (где «B» означает миллиард, что относится к числу обучаемых весов в модели). Каждая версия спроектирована под разные типы устройств. Меньшие модели могут работать на телефонах и планшетах, тогда как более крупная 7B модель лучше подходит для настольных систем или более требовательных задач.

Это дает разработчикам гибкость в выборе того, что лучше всего подходит для их приложений. Ты можешь создать что-то быстрое и легкое для мобильных устройств или что-то более сложное для крупных систем, используя одну и ту же архитектуру модели.

Apple обучила варианты модели FastVLM, используя конвейер LLaVA‑1.5, инфраструктуру для выравнивания визуальных и языковых моделей. Для языкового компонента они оценивали FastVLM, используя существующие модели с открытым кодом, такие как Qwen и Vicuna, известные генерацией естественного и связного текста. Такая настройка позволяет FastVLM обрабатывать как простые, так и сложные изображения, выдавая при этом читаемые и релевантные ответы.

Link to this sectionЗначимость FastVLM: эффективный подход Apple к ИИ#

Возможно, тебе интересно, почему эффективная обработка изображений FastVLM имеет такое значение? Всё сводится к тому, насколько плавно приложения могут работать в реальном времени, не полагаясь на облако. FastVLM может работать с изображениями высокого разрешения, до 1152 на 1152 пикселей, оставаясь достаточно быстрой и легкой для работы непосредственно на твоем устройстве.

Это означает, что приложения могут описывать то, что видит камера, сканировать чеки в момент съемки или реагировать на изменения на экране, сохраняя при этом все данные локально. Это особенно полезно для таких сфер, как образование, доступность, продуктивность и фотография.

Поскольку FastViTHD эффективен даже при работе с крупными изображениями, это помогает устройствам оставаться отзывчивыми и не перегреваться. Он работает со всеми размерами моделей, включая самую маленькую, которая запускается на базовых iPhone. Это значит, что одни и те же ИИ-функции могут работать на телефонах, планшетах и Mac.

Link to this sectionПрименение FastVLM#

FastVLM может стать основой для множества приложений благодаря своим ключевым преимуществам: скорости, эффективности и локальной конфиденциальности. Вот несколько способов её использования:

  • Чтение документов: модель может сканировать чеки, формы или ID-карты и извлекать только нужную информацию. Она может фокусироваться на конкретных областях изображения, что полезно для приложений, которым требуется быстрое и точное извлечение текста.

  • Описания изображений: анализируя фото, она может генерировать четкое описание того, что на нем изображено. Это поддерживает функции в приложениях камеры, фотогалереях или любом инструменте, которому полезно визуальное понимание в реальном времени.

  • Поддержка доступности: FastVLM может описывать содержимое экрана для незрячих или слабовидящих пользователей, делая кнопки, меню и элементы интерфейса более простыми для навигации и использования.

  • Локальные ИИ-ассистенты: FastVLM отлично работает с ИИ-помощниками, которым нужно быстро понимать, что происходит на экране. Поскольку она работает непосредственно на устройстве и хранит данные приватно, она может помогать с такими задачами, как чтение текста, идентификация кнопок или иконок, а также сопровождение пользователей в реальном времени без необходимости отправлять информацию в облако.

FastVLM можно использовать для распознавания текста и визуальных ответов на вопросы

Рис. 4. FastVLM можно использовать для распознавания текста и визуальных ответов на вопросы. (Источник)

Link to this sectionОсновные выводы#

FastVLM переносит визуальный ИИ на устройства Apple, сочетая в себе скорость, конфиденциальность и эффективность. Благодаря своей легкости и открытому исходному коду, она обеспечивает понимание изображений в реальном времени в мобильных и настольных приложениях.

Это делает ИИ более практичным и доступным для повседневного использования, а также дает разработчикам надежную основу для создания полезных и ориентированных на приватность приложений. Заглядывая в будущее, можно сказать, что мультимодальные модели будут играть важную роль в том, как мы взаимодействуем с технологиями, делая ИИ более отзывчивым, контекстно-зависимым и полезным в повседневных ситуациях.

Исследуй наш GitHub репозиторий, чтобы узнать больше об ИИ. Присоединяйся к нашему активному сообществу и открывай для себя инновации в таких секторах, как ИИ в автомобильной промышленности и визуальный ИИ в производстве. Чтобы начать работу с компьютерным зрением уже сегодня, ознакомься с нашими вариантами лицензирования.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения