Florence-2: новейшая визуально-языковая модель от Microsoft
Встречай Florence-2, визуально-языковую модель Microsoft, которая предлагает улучшенное обнаружение объектов, сегментацию и производительность zero-shot с отличной эффективностью.

В июне 2024 года Microsoft представила Florence-2 — мультимодальную визуальную языковую модель (VLM), разработанную для широкого спектра задач, включая обнаружение объектов, сегментацию, описание изображений и визуальное заземление. Florence-2 устанавливает новый стандарт производительности zero-shot, что означает способность модели выполнять задачи без предварительного обучения, при этом обладая меньшим размером по сравнению с другими современными VLM.
Это не просто очередная модель: универсальность и повышенная производительность Florence-2 способны существенно повлиять на различные отрасли, повышая точность и снижая потребность в длительном обучении. В этой статье мы изучим инновационные функции Florence-2, сравним её показатели с другими VLM и обсудим потенциальные варианты применения.
Link to this sectionЧто такое Florence-2?#
Florence-2 может выполнять множество задач в рамках единой унифицированной архитектуры. Впечатляющие возможности модели отчасти обусловлены огромным обучающим набором данных FLD-5B. FLD-5B включает 5,4 миллиарда аннотаций для 126 миллионов изображений. Этот комплексный набор данных был специально создан для того, чтобы наделить Florence-2 функциями, необходимыми для высокоточного и эффективного решения широкого круга задач компьютерного зрения.
Вот более подробный обзор задач, которые поддерживает Florence-2:
- Обнаружение объектов: она способна распознавать и определять местоположение объектов на изображениях с высокой точностью.
- Сегментация: эта задача включает разделение изображения на значимые сегменты для упрощения анализа и интерпретации.
- Описание изображений: Florence-2 способна генерировать описательные подписи к изображениям, которые обеспечивают контекст и детализацию.
- Визуальное заземление: модель может соотносить конкретные фразы или слова в подписи с соответствующими областями на изображении.
- Zero-shot производительность: она может выполнять задачи без специального обучения.

Рис. 1. Изучение того, как обучалась Florence-2.
Модель поддерживает как текстовые, так и региональные задачи. Для задач, связанных с конкретными областями изображения, в словарь модели добавляются специальные токены местоположения. Эти токены помогают модели понимать различные формы, такие как прямоугольники вокруг объектов (box representation), четырехсторонние фигуры (quad box representation) и многоугольные формы (polygon representation). Модель обучается с использованием метода cross-entropy loss, который помогает ей учиться, сравнивая свои прогнозы с правильными ответами и соответствующим образом корректируя внутренние параметры.
Link to this sectionСоздание набора данных FLD-5B#
Набор данных FLD-5B включает различные типы аннотаций: текстовые описания, пары «область и текст», а также комбинации текста, фраз и областей. Он был создан в ходе двухэтапного процесса, включающего сбор и аннотирование данных. Изображения были получены из популярных наборов данных, таких как ImageNet-22k, Object 365, Open Images, Conceptual Captions и LAION. Аннотации в FLD-5B в основном являются синтетическими, то есть они были сгенерированы автоматически, а не размечены вручную.

Рис. 2. Создание набора данных FLD-5B.
Изначально эти аннотации создавали специализированные модели, обученные конкретным задачам, таким как обнаружение объектов или сегментация. Затем применялся процесс фильтрации и улучшения, чтобы убедиться, что аннотации являются подробными и точными. После удаления шума набор данных прошел через итеративное уточнение, в ходе которого выводы Florence-2 использовались для постоянного обновления и улучшения аннотаций.
Link to this sectionПонимание архитектуры модели Florence-2#
Архитектура Florence-2 следует подходу sequence-to-sequence. Это означает, что модель обрабатывает входную последовательность (например, изображение с текстовым промптом) и генерирует выходную последовательность (например, описание или метку) шаг за шагом. В рамках sequence-to-sequence каждая задача рассматривается как задача перевода: модель берет на вход изображение и специфический для задачи промпт, а затем генерирует соответствующий вывод.

Рис. 3. Архитектура визуально-языковой модели Florence-2.
В основе архитектуры модели лежит мультимодальный энкодер-декодер Transformer, который сочетает в себе визуальный энкодер и мультимодальный энкодер-декодер. Визуальный энкодер, называемый DaViT (Data-efficient Vision Transformer), обрабатывает входные изображения, преобразуя их в эмбеддинги визуальных токенов — компактные представления изображения, которые фиксируют как пространственную информацию (где находятся объекты), так и семантическую (что это за объекты). Эти визуальные токены затем объединяются с текстовыми эмбеддингами (представлениями текста), что позволяет модели легко объединять текстовые и визуальные данные.
Link to this sectionСравнение Florence-2 с другими VLM#
Florence-2 выделяется среди других визуально-языковых моделей благодаря своим впечатляющим zero-shot возможностям. В отличие от таких моделей, как PaliGemma, которые полагаются на обширную донастройку для адаптации к различным задачам, Florence-2 хорошо работает «из коробки». Кроме того, Florence-2 способна конкурировать с более крупными моделями, такими как GPT-4V и Flamingo, у которых часто гораздо больше параметров, но результаты не всегда лучше, чем у Florence-2. Например, Florence-2 достигает лучших результатов zero-shot, чем Kosmos-2, несмотря на то, что у Kosmos-2 более чем в два раза больше параметров.
В сравнительных тестах Florence-2 показала выдающиеся результаты в таких задачах, как создание подписей к COCO и понимание ссылочных выражений. Она превзошла такие модели, как PolyFormer и UNINEXT, в задачах обнаружения объектов и сегментации на наборе данных COCO. Это высококонкурентный выбор для реальных приложений, где важны как производительность, так и эффективность использования ресурсов.
Link to this sectionПрименение Florence-2#
Florence-2 может использоваться во многих отраслях, таких как развлечения, доступность, образование и т. д. Давай разберем несколько примеров, чтобы лучше разобраться.
Link to this sectionПрименение описания изображений#
Когда ты находишься на стриминговой платформе и пытаешься выбрать, что посмотреть, ты можешь прочитать краткое содержание фильма. А что, если бы платформа могла также предоставить подробное описание постера к фильму? Florence-2 может сделать это возможным с помощью создания подписей к изображениям. Florence-2 способна генерировать детальные описания постеров, делая стриминговые платформы более инклюзивными для слабовидящих пользователей. Анализируя визуальные элементы постера, такие как персонажи, пейзаж и текст, Florence-2 может создавать подробные описания, передающие содержание и настроение постера. Изображение ниже показывает уровень детализации, который может обеспечить Florence-2.

Рис. 4. Пример подписи к изображению, сгенерированной Florence-2.
Вот несколько других примеров, где создание подписей к изображениям может быть полезным:
- Электронная коммерция: создание подписей может предоставить подробные описания изображений товаров, помогая клиентам более четко понимать характеристики и детали продуктов.
- Путешествия и туризм: оно может предоставить подробные описания достопримечательностей в путеводителях и приложениях.
- Образование: создание подписей может маркировать и описывать образовательные изображения и диаграммы, помогая в преподавании и обучении.
- Недвижимость: оно может предоставить детальные описания изображений недвижимости, подчеркивающие особенности и удобства для потенциальных покупателей.
Link to this sectionИспользование визуального заземления во время приготовления пищи#
Florence-2 также можно использовать для обогащения кулинарного опыта. Например, онлайн-книга рецептов могла бы использовать Florence-2 для визуального заземления и маркировки частей сложного изображения рецепта. Визуальное заземление помогает здесь, связывая конкретные части изображения с соответствующим описательным текстом. Каждый ингредиент и шаг могут быть точно помечены и объяснены, что облегчает домашним поварам выполнение рецепта и понимание роли каждого компонента в блюде.

Рис. 5. Пример визуального заземления с помощью Florence-2.
Link to this sectionOCR с привязкой к регионам для финансовых документов#
OCR с региональной обработкой, которая фокусируется на извлечении текста из конкретных областей документа, может пригодиться в таких областях, как бухгалтерский учет. Указанные области финансовых документов можно анализировать для автоматического извлечения важной информации, такой как детали транзакций, номера счетов и даты платежей. Уменьшая потребность в ручном вводе данных, это минимизирует ошибки и ускоряет время обработки. Финансовые учреждения могут использовать это для оптимизации задач, таких как обработка счетов-фактур, сверка квитанций и клиринг чеков, что ведет к более быстрым транзакциям и лучшему обслуживанию клиентов.

Рис. 6. Пример извлечения OCR с использованием регионов с Florence-2.
Link to this sectionРегиональная сегментация в промышленных приложениях#
Региональная сегментация, которая предполагает разделение изображения на значимые части для целенаправленного анализа и детального осмотра, может способствовать промышленным приложениям, повышающим точность и эффективность в различных процессах. Фокусируясь на конкретных областях изображения, эта технология позволяет детально осматривать и анализировать компоненты и продукты. Что касается контроля качества, она может выявлять дефекты или несоответствия в материалах, такие как трещины или перекосы, гарантируя, что на рынок попадут только высококачественные продукты.

Рис. 7. Пример сегментации на основе регионов с Florence-2.
Она также улучшает автоматизированные сборочные линии, направляя роботизированные манипуляторы к конкретным деталям и оптимизируя размещение и сборку компонентов. Аналогичным образом, в управлении запасами она помогает отслеживать состояние и местоположение товаров, что ведет к более эффективной логистике и сокращению простоев. В целом, сегментация на основе регионов повышает точность и продуктивность, что ведет к экономии затрат и повышению качества продукции в промышленных условиях.
Link to this sectionОсновные выводы#
Мы начинаем наблюдать тенденцию, при которой модели ИИ становятся легче, сохраняя при этом высокую производительность. Florence-2 знаменует собой важный шаг вперед в области визуально-языковых моделей. Она может выполнять различные задачи, такие как обнаружение объектов, сегментация, создание подписей к изображениям и заземление с впечатляющей производительностью zero-shot. Несмотря на свой меньший размер, Florence-2 эффективна и многофункциональна, что делает ее чрезвычайно полезной для приложений в самых разных отраслях. Модели, подобные Florence-2, открывают новые возможности, расширяя потенциал инноваций в ИИ.
Узнай больше об ИИ, посетив наш репозиторий на GitHub и присоединившись к нашему сообществу. Ознакомься с нашими страницами решений, чтобы почитать о применении ИИ в производстве и сельском хозяйстве. 🚀






