Флоренция-2: новейшая модель языка видения от Microsoft

Абирами Вина

6 минут чтения

26 июля 2024 г.

Встречайте Florence-2, визуальную языковую модель от Microsoft, которая обеспечивает улучшенное обнаружение объектов, сегментацию и работу с нулевыми снимками с высокой эффективностью.

В июне 2024 года Microsoft представила Florence-2, мультимодальную модель визуального языка (VLM), предназначенную для решения широкого спектра задач, включая обнаружение объектов, сегментацию, создание подписей к изображениям и заземление. Florence-2 устанавливает новую планку производительности, то есть может выполнять задачи без предварительного специального обучения, и имеет меньший размер модели по сравнению с другими современными моделями языка зрения.

Это больше, чем просто другая модель. Универсальность и улучшенные характеристики Florence-2 способны оказать значительное влияние на различные отрасли промышленности, повысив точность и сократив необходимость в длительном обучении. В этой статье мы рассмотрим инновационные возможности Florence-2, сравним его производительность с другими VLM и обсудим его потенциальное применение.

Что такое Флоренция-2?

Florence-2 может решать множество задач в рамках единой унифицированной структуры. Впечатляющие возможности модели отчасти обусловлены огромным набором обучающих данных под названием FLD-5B. FLD-5B включает 5,4 миллиарда аннотаций к 126 миллионам изображений. Этот обширный набор данных был создан специально для того, чтобы обеспечить Florence-2 возможностями, необходимыми для решения широкого спектра задач технического зрения с высокой точностью и эффективностью. 

Вот более подробный обзор задач, которые поддерживает Florence-2:

  • Обнаружение объекта: Он позволяет с высокой точностью идентифицировать и находить объекты на изображениях.
  • Сегментация: Эта задача включает в себя разделение изображения на значимые сегменты для облегчения анализа и интерпретации.
  • Создание подписей к изображениям: Florence-2 способен генерировать описательные подписи к изображениям, которые содержат контекст и подробности.
  • Визуальное обоснование: Модель может ассоциировать определенные фразы или слова в подписи с соответствующими областями на изображении.
  • Нулевая производительность: Он может выполнять задачи без специальной подготовки.
__wf_reserved_inherit
Рис. 1. Понимание того, как была обучена Флоренция-2.

Модель поддерживает как текстовые, так и региональные задачи. Для задач, связанных с определенными областями изображения, в словарь модели добавляются специальные лексемы местоположения. Эти лексемы помогают модели понимать различные формы, такие как прямоугольники вокруг объектов (представление коробки), четырехугольные формы (представление квадрата) и многоугольные формы (представление многоугольника). Модель обучается с помощью метода, называемого потерей перекрестной энтропии, который помогает ей обучаться, сравнивая свои предсказания с правильными ответами и соответствующим образом корректируя свои внутренние параметры.

Создание набора данных FLD-5B

Набор данных FLD-5B включает в себя различные типы аннотаций: текстовые описания, пары регионов и текста, а также комбинации текста, фраз и регионов. Он был создан в результате двухэтапного процесса сбора данных и аннотирования. Изображения были взяты из таких популярных наборов данных, как ImageNet-22k, Object 365, Open Images, Conceptual Captions и LAION. Аннотации в наборе данных FLD-5B в основном синтетические, то есть они были сгенерированы автоматически, а не помечены вручную. 

__wf_reserved_inherit
Рис. 2. Создание набора данных FLD-5B.

Сначала эти аннотации создавались специализированными моделями, умеющими решать конкретные задачи, такие как обнаружение объектов или сегментация. Затем использовался процесс фильтрации и улучшения, чтобы убедиться, что аннотации были подробными и точными. После удаления шумов набор данных проходил итеративную доработку, в ходе которой результаты работы Florence-2 использовались для постоянного обновления и улучшения аннотаций. 

Понимание архитектуры модели Florence-2

Архитектура модели Florence-2 основана на подходе к обучению по принципу "последовательность-последовательность". Это означает, что модель обрабатывает входную последовательность (например, изображение с текстовой подсказкой) и генерирует выходную последовательность (например, описание или метку) в пошаговом режиме. В рамках подхода "последовательность-последовательность" каждая задача рассматривается как проблема перевода: модель принимает на вход изображение и подсказку, характерную для конкретной задачи, и генерирует соответствующий выход.

__wf_reserved_inherit
Рис. 3. Архитектура модели языка видения Florence-2.

В основе архитектуры модели лежит мультимодальный кодер-декодер-трансформер, который объединяет кодер изображений и мультимодальный кодер-декодер. Кодер изображений, называемый DaViT (Data-efficient Vision Transformer), обрабатывает входные изображения, преобразуя их в визуальные вкрапления лексем - компактные представления изображения, которые отражают как пространственную (где находятся предметы), так и семантическую (что представляют собой предметы) информацию. Затем эти визуальные лексемы объединяются с текстовыми вкраплениями (представлениями текста), что позволяет модели легко объединять текстовые и визуальные данные.

Сравнение Florence-2 с другими VLM

Florence-2 выделяется среди других визуальных языковых моделей благодаря своим впечатляющим возможностям работы с нуля. В отличие от таких моделей, как PaliGemma, которым требуется длительная тонкая настройка для адаптации к различным задачам, Florence-2 отлично работает прямо из коробки. Кроме того, Florence-2 способен конкурировать с такими крупными моделями, как GPT-4V и Flamingo, которые зачастую имеют гораздо больше параметров, но не всегда могут сравниться с Florence-2 по производительности. Например, Florence-2 достигает лучших результатов по нулевому выстрелу, чем Kosmos-2, несмотря на то, что у Kosmos-2 в два раза больше параметров.

В эталонных тестах Florence-2 продемонстрировала выдающуюся производительность в таких задачах, как создание титров COCO и понимание референсных выражений. Она превзошла такие модели, как PolyFormer и UNINEXT, в задачах обнаружения и сегментации объектов на наборе данных COCO. Это очень конкурентоспособный выбор для реальных приложений, где важны как производительность, так и эффективность использования ресурсов.

Применение Флоренции-2

Флоренция-2 может использоваться в самых разных отраслях, таких как развлечения, доступность, образование и т. д. Давайте рассмотрим несколько примеров, чтобы лучше понять суть.

Области применения надписей к изображениям

Когда вы находитесь на платформе потокового вещания и пытаетесь решить, что посмотреть, вы можете прочитать краткое описание фильма, чтобы помочь вам сделать выбор. А что, если бы платформа могла также предоставлять подробное описание киноафиши? Florence-2 может сделать это возможным благодаря функции создания подписей к изображениям, которая генерирует описательный текст для изображений. Florence-2 может генерировать подробные описания постеров фильмов, делая платформы потокового вещания более инклюзивными для пользователей с ослабленным зрением. Анализируя визуальные элементы постера, такие как персонажи, декорации и текст, Florence-2 может создавать подробные описания, передающие содержание и настроение постера. На изображении ниже показан уровень детализации, который Florence-2 может обеспечить в своем описании.

__wf_reserved_inherit
Рис. 4. Пример подписи к изображению, созданной Florence-2. 

Вот еще несколько примеров того, как надписи на изображениях могут быть полезны:

  • Электронная коммерция: Подписи к изображениям могут содержать подробные описания изображений товаров, помогая покупателям лучше понять их характеристики и детали.
  • Путешествия и туризм: Он может предоставлять подробные описания достопримечательностей в путеводителях и приложениях.
  • Образование: Подписи к изображениям могут обозначать и описывать учебные изображения и диаграммы, помогая в преподавании и обучении.
  • Недвижимость: Он может предоставить подробные описания изображений объектов недвижимости, которые подчеркивают особенности и удобства для потенциальных покупателей.

Использование визуального заземления во время приготовления пищи

Florence-2 также можно использовать для обогащения кулинарного опыта. Например, онлайновая кулинарная книга может использовать Florence-2 для визуального обоснования и маркировки частей сложного изображения рецепта. Визуальное обоснование помогает здесь, связывая определенные части изображения с соответствующим описательным текстом. Каждый ингредиент и шаг может быть точно обозначен и объяснен, что облегчает домашним поварам следование рецепту и понимание роли каждого компонента в блюде.

__wf_reserved_inherit
Рис. 5. Пример визуального заземления с помощью Florence-2. 

Региональный OCR для финансовых документов

OCR с обработкой по регионам, которая направлена на извлечение текста из определенных областей документа, может пригодиться в таких областях, как бухгалтерский учет. Выделенные области финансовых документов могут быть проанализированы для автоматического извлечения важной информации, такой как детали транзакций, номера счетов и даты погашения. Сокращение необходимости ручного ввода данных сводит к минимуму количество ошибок и ускоряет процесс обработки. Финансовые учреждения могут использовать его для оптимизации таких задач, как обработка счетов, сверка квитанций и очистка чеков, что позволяет ускорить транзакции и повысить качество обслуживания клиентов. 

__wf_reserved_inherit
Рис. 6. Пример извлечения OCR с регионом с помощью Florence-2. 

Сегментация на основе регионов в промышленных приложениях

Сегментация по регионам, которая предполагает разделение изображения на значимые части для целенаправленного анализа и детальной проверки, может способствовать развитию промышленных приложений, повышающих точность и эффективность различных процессов. Фокусируясь на определенных областях изображения, эта технология позволяет проводить детальный осмотр и анализ компонентов и изделий. Что касается контроля качества, то она позволяет выявлять дефекты или несоответствия в материалах, например трещины или смещения, гарантируя, что на рынок попадет только высококачественная продукция.

__wf_reserved_inherit
Рис. 7. Пример сегментации на основе регионов с помощью Florence-2.

Она также улучшает работу автоматизированных сборочных линий, направляя роботизированные руки к определенным деталям и оптимизируя размещение и сборку компонентов. Аналогичным образом, при управлении запасами она помогает отслеживать состояние и местонахождение товаров, что приводит к повышению эффективности логистики и сокращению времени простоя. В целом сегментация по регионам повышает точность и производительность, что приводит к экономии средств и повышению качества продукции в промышленности.

Основные выводы

Мы начинаем наблюдать тенденцию, когда модели ИИ становятся легче, сохраняя при этом высокую производительность. Florence-2 - это большой шаг вперед в области визуальных языковых моделей. Она может решать различные задачи, такие как обнаружение объектов, сегментация, создание подписей к изображениям и заземление с впечатляющей производительностью. Несмотря на небольшие размеры, Florence-2 эффективен и многофункционален, что делает его чрезвычайно полезным для применения в различных отраслях. Такие модели, как Florence-2, открывают новые возможности, расширяя потенциал инноваций в области ИИ.

Посетите наш репозиторий GitHub и присоединитесь к нашему сообществу, чтобы узнать больше об искусственном интеллекте. Посетите страницы наших решений, чтобы узнать о применении ИИ в производстве и сельском хозяйстве. 🚀

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена