Встречайте Florence-2, визуальную языковую модель Microsoft, которая предлагает улучшенное обнаружение объектов, сегментацию и производительность zero-shot с высокой эффективностью.

Встречайте Florence-2, визуальную языковую модель Microsoft, которая предлагает улучшенное обнаружение объектов, сегментацию и производительность zero-shot с высокой эффективностью.
В июне 2024 года Microsoft представила Florence-2, мультимодальную визуальную языковую модель (VLM), которая предназначена для решения широкого круга задач, включая обнаружение объектов, сегментацию, создание подписей к изображениям и привязку. Florence-2 устанавливает новый эталон для производительности zero-shot, что означает, что она может выполнять задачи без предварительного специального обучения, и имеет меньший размер модели, чем другие современные модели vision-language.
Florence-2 — это больше, чем просто еще одна модель. Универсальность и улучшенная производительность Florence-2 потенциально могут оказать значительное влияние на различные отрасли, повысив точность и снизив потребность в длительном обучении. В этой статье мы рассмотрим инновационные функции Florence-2, сравним ее производительность с другими VLM и обсудим ее потенциальные применения.
Florence-2 может обрабатывать различные задачи в рамках единой унифицированной структуры. Впечатляющие возможности модели частично обусловлены ее огромным набором данных для обучения под названием FLD-5B. FLD-5B включает 5,4 миллиарда аннотаций по 126 миллионам изображений. Этот всеобъемлющий набор данных был создан специально для того, чтобы предоставить Florence-2 возможности, необходимые для выполнения широкого спектра задач компьютерного зрения с высокой точностью и эффективностью.
Вот более подробный обзор задач, которые поддерживает Florence-2:
Модель поддерживает задачи, основанные как на тексте, так и на регионах. Специальные токены местоположения добавляются в словарь модели для задач, связанных с определенными областями изображения. Эти токены помогают модели понимать различные формы, такие как прямоугольники вокруг объектов (представление ограничивающего прямоугольника), четырехсторонние фигуры (представление четырехугольника) и многосторонние фигуры (представление полигона). Модель обучается с использованием метода, называемого перекрестной энтропией, который помогает ей учиться, сравнивая свои прогнозы с правильными ответами и соответствующим образом корректируя свои внутренние параметры.
Набор данных FLD-5B включает в себя различные типы аннотаций: текстовые описания, пары регионов и текста, а также комбинации текста, фраз и регионов. Он был создан в ходе двухэтапного процесса, включающего сбор и аннотацию данных. Изображения были взяты из популярных наборов данных, таких как ImageNet-22k, Object 365, Open Images, Conceptual Captions и LAION. Аннотации в наборе данных FLD-5B в основном синтетические, то есть они были сгенерированы автоматически, а не размечены вручную.
Первоначально эти аннотации создавались специализированными моделями, предназначенными для конкретных задач, таких как обнаружение объектов или сегментация. Затем использовался процесс фильтрации и улучшения, чтобы убедиться, что аннотации были подробными и точными. После удаления любого шума набор данных прошел итеративную доработку, где выходные данные Florence-2 использовались для непрерывного обновления и улучшения аннотаций.
Архитектура модели Florence-2 следует подходу обучения sequence-to-sequence. Это означает, что модель обрабатывает входную последовательность (например, изображение с текстовым запросом) и генерирует выходную последовательность (например, описание или метку) шаг за шагом. В структуре sequence-to-sequence каждая задача рассматривается как проблема перевода: модель принимает входное изображение и специфичный для задачи запрос и генерирует соответствующий вывод.
В основе архитектуры модели лежит многомодальный кодировщик-декодер transformer, который объединяет кодировщик изображений и многомодальный кодировщик-декодер. Кодировщик изображений, называемый DaViT (Data-efficient Vision Transformer), обрабатывает входные изображения, преобразуя их в визуальные токены-вложения — компактные представления изображения, которые фиксируют как пространственную (где находятся объекты), так и семантическую (что это за объекты) информацию. Затем эти визуальные токены объединяются с текстовыми вложениями (представлениями текста), что позволяет модели беспрепятственно объединять текстовые и визуальные данные.
Florence-2 отличается от других визуальных языковых моделей благодаря своим впечатляющим возможностям zero-shot. В отличие от таких моделей, как PaliGemma, которые полагаются на обширную тонкую настройку для адаптации к различным задачам, Florence-2 хорошо работает прямо из коробки. Кроме того, Florence-2 способна конкурировать с более крупными моделями, такими как GPT-4V и Flamingo, которые часто имеют гораздо больше параметров, но не всегда соответствуют производительности Florence-2. Например, Florence-2 достигает лучших результатов zero-shot, чем Kosmos-2, несмотря на то, что Kosmos-2 имеет более чем в два раза больше параметров.
В эталонных тестах Florence-2 продемонстрировала выдающуюся производительность в таких задачах, как создание подписей COCO и понимание ссылочных выражений. Она превзошла такие модели, как PolyFormer и UNINEXT, в задачах обнаружения и сегментации объектов на наборе данных COCO. Это очень конкурентоспособный выбор для реальных приложений, где важны как производительность, так и эффективность использования ресурсов.
Florence-2 можно использовать во многих различных отраслях, таких как развлечения, специальные возможности, образование и т. д. Давайте рассмотрим несколько примеров, чтобы лучше понять.
Когда вы находитесь на стриминговой платформе и пытаетесь решить, что посмотреть, вы можете прочитать краткое содержание фильма, чтобы помочь вам сделать выбор. Что, если бы платформа могла также предоставить подробное описание постера фильма? Florence-2 может сделать это возможным с помощью создания подписей к изображениям, которое генерирует описательный текст для изображений. Florence-2 может генерировать подробные описания постеров фильмов, делая стриминговые платформы более доступными для пользователей с нарушениями зрения. Анализируя визуальные элементы постера, такие как персонажи, пейзажи и текст, Florence-2 может создавать подробные описания, передающие содержание и настроение постера. На изображении ниже показан уровень детализации, который Florence-2 может предоставить в своем описании.
Вот еще несколько примеров того, где может быть полезно создание подписей к изображениям:
Florence-2 также можно использовать для обогащения кулинарного опыта. Например, онлайн-книга рецептов может использовать Florence-2 для визуальной привязки и маркировки частей сложного изображения рецепта. Визуальная привязка помогает здесь, связывая определенные части изображения с соответствующим описательным текстом. Каждый ингредиент и шаг можно точно пометить и объяснить, что облегчает домашним поварам следование рецепту и понимание роли каждого компонента в блюде.
OCR с обработкой на основе регионов, которая фокусируется на извлечении текста из определенных областей документа, может пригодиться в таких областях, как бухгалтерский учет. Определенные области финансовых документов можно анализировать для автоматического извлечения важной информации, такой как детали транзакций, номера счетов и сроки оплаты. Уменьшая потребность в ручном вводе данных, он минимизирует ошибки и ускоряет время обработки. Финансовые учреждения могут использовать его для оптимизации таких задач, как обработка счетов, сверка квитанций и клиринг чеков, что приводит к более быстрым транзакциям и улучшению обслуживания клиентов.
Региональная сегментация, которая включает в себя разделение изображения на значимые части для целенаправленного анализа и детального осмотра, может способствовать развитию промышленных приложений, которые повышают точность и эффективность различных процессов. Сосредоточившись на определенных областях изображения, эта технология позволяет проводить детальный осмотр и анализ компонентов и продуктов. Что касается контроля качества, она может выявлять дефекты или несоответствия в материалах, такие как трещины или смещения, гарантируя, что на рынок попадут только продукты высшего качества.
Это также улучшает автоматизированные сборочные линии, направляя роботизированные руки к определенным деталям и оптимизируя размещение и сборку компонентов. Аналогично, в управлении запасами это помогает отслеживать и контролировать состояние и местоположение товаров, что приводит к более эффективной логистике и сокращению времени простоя. В целом, сегментация на основе регионов повышает точность и производительность, что приводит к экономии затрат и повышению качества продукции в промышленных условиях.
Мы начинаем наблюдать тенденцию, когда модели ИИ становятся легче, сохраняя при этом высокую производительность. Florence-2 знаменует собой важный шаг вперед в области моделей визуального языка. Она может справляться с различными задачами, такими как обнаружение объектов, сегментация, создание подписей к изображениям и граундинг, с впечатляющей производительностью zero-shot. Несмотря на свой меньший размер, Florence-2 эффективна и многофункциональна, что делает ее чрезвычайно полезной для применения в различных отраслях. Модели, подобные Florence-2, открывают больше возможностей, расширяя потенциал для инноваций в области ИИ.
Узнайте больше об ИИ, посетив наш репозиторий GitHub и присоединившись к нашему сообществу. Посетите страницы наших решений, чтобы узнать о применении ИИ в производстве и сельском хозяйстве. 🚀