Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас

Понимание сегментации понятий, поддающихся подсказке

Изучите концепцию сегментации по запросу, ее отличия от традиционных методов и то, как связанные модели, такие как YOLOE-26, обеспечивают возможности открытого словаря.

Искусственный интеллект в области зрения быстро развивается и широко используется для анализа изображений и видео в реальных условиях. Например, приложения, начиная от систем управления дорожным движением и заканчивая аналитикой розничной торговли, интегрируются с моделями компьютерного зрения.

Во многих из этих приложений модели зрения, такие как модели обнаружения объектов, обучаются распознавать заранее определенный набор объектов, включая транспортные средства, людей и оборудование. Во время обучения этим моделям показывается множество помеченных примеров, чтобы они могли научиться распознавать, как выглядит каждый объект и как отличить его от других объектов в сцене.

Для задач сегментации модели идут еще дальше, создавая точные контуры на уровне пикселей вокруг этих объектов. Это позволяет системам точно понимать, где каждый объект находится на изображении.

Это хорошо работает, пока системе нужно распознавать только то, на чем она была обучена. Однако в реальных условиях это редко бывает так. 

Визуальные сцены, как правило, динамичны. Появляются новые объекты и визуальные концепции, меняются условия, и пользователи часто хотят segment , которые не были частью исходной обучающей установки.

Эти ограничения особенно очевидны в отношении сегментации. По мере развития Vision AI растет потребность в более гибких моделях сегментации, которые могут адаптироваться к новым концепциям без повторного переобучения. Именно поэтому все больше внимания привлекает сегментация концепций с подсказками (PCS).

Вместо того чтобы полагаться на фиксированный список категорий объектов, пользователи могут описывать то, что они хотят segment текста, визуальных подсказок или примеров изображений. Затем эти модели могут идентифицировать и segment области, которые соответствуют описанному концепту, даже если этот концепт не был явно включен во время обучения.

В этой статье мы рассмотрим, как работает сегментация концепций с подсказками, чем она отличается от традиционных подходов и где она используется сегодня.

Что такое сегментация концепций с подсказкой?

В большинстве случаев модели сегментации обучаются распознавать короткий список типов объектов. Это хорошо работает, когда система Vision AI должна detect segment только определенный segment объектов.

Однако в реальных приложениях визуальные сцены являются динамическими. Появляются новые объекты, меняются требования к задачам, и пользователям часто приходится segment , которые не были включены в исходный набор меток. Поддержка таких ситуаций обычно означает сбор новых высококачественных данных и аннотаций, а также повторное обучение модели, что увеличивает затраты и замедляет развертывание.

Сегментация по запросу решает эту проблему, позволяя пользователям указывать модели, что именно нужно искать, вместо выбора из фиксированного списка меток. Пользователи описывают объект или идею, которые они ищут, а модель выделяет все соответствующие области на изображении. Это значительно упрощает сопоставление намерения пользователя с фактическими пикселями на изображении.

Рис. 1. Использование концептуальных подсказок для сегментации (Источник)

Направляющая сегментация с различными типами подсказок

Модели, поддерживающие сегментацию концепций с подсказками, являются гибкими, поскольку могут принимать различные типы входных данных. Другими словами, существует более одного способа сообщить модели, что ей нужно искать, например, текстовые описания, визуальные подсказки или примеры изображений.

Давайте рассмотрим каждый подход более подробно:

  • Текстовые подсказки: для описания концепции, подлежащей segment, можно использовать короткие фразы, такие как «школьный автобус» или «область опухоли». Модель интерпретирует значение слов и определяет соответствующие области.
  • Визуальные подсказки: эти подсказки используют точки, рамки или грубые наброски внутри изображения в качестве подсказок. Эти подсказки указывают, куда смотреть, и помогают сформировать окончательные границы.
  • Образцы изображений: эталонные изображения или небольшие фрагменты представляют интересующую концепцию. Модель ищет визуально похожие области и сегментирует их на основе визуального внешнего вида.

Разница между PCS и традиционной сегментацией

Прежде чем углубиться в то, как работает сегментация концепций с подсказками, давайте сначала сравним ее с различными традиционными методами сегментации объектов.

PCS поддерживает модели с открытым словарем и подсказками. Он может работать с новыми идеями, описанными с помощью подсказок, в то время как традиционная сегментация не способна на это. Существует несколько различных типов традиционных подходов к сегментации, каждый из которых имеет свои собственные допущения и ограничения.

Вот краткий обзор некоторых основных типов традиционной сегментации:

  • Семантическая сегментация: каждый пиксель изображения помечается как часть категории, например дорога, здание или человек. Все пиксели с одинаковой меткой группируются вместе, поэтому модель не разделяет отдельные экземпляры объектов.
  • Сегментация экземпляров: модель идентифицирует и сегментирует отдельные объекты, поэтому два человека или две машины рассматриваются как отдельные элементы. 
  • Паноптическая сегментация: эта техника сочетает семантическую и экземплярную сегментацию, чтобы обеспечить полное представление сцены, охватывающее как фоновые области, так и отдельные объекты. 

Все эти подходы опираются на заранее определенный список категорий объектов. Они хорошо работают в рамках этого списка, но не очень хорошо справляются с концепциями, выходящими за его пределы. Когда необходимо сегментировать новый конкретный объект, обычно требуются дополнительные обучающие данные и точная настройка модели.

PCS стремится изменить эту ситуацию. Вместо того, чтобы быть ограниченным заранее заданными категориями, он позволяет вам описывать то, что вы хотите segment изображении, во время вывода.

Эволюция моделей PCS

Далее давайте рассмотрим, как модели сегментации эволюционировали в направлении сегментации концепций с подсказками.

Популярной моделью, которая ознаменовала сдвиг в сегментации, стала SAM, или модель сегментации всего (Segment Anything Model). Она была представлена в 2023 году. Вместо того, чтобы полагаться на заранее определенные категории объектов, SAM пользователям направлять сегментацию с помощью простых визуальных подсказок, таких как точки или ограничительные рамки. 

С SAM пользователям больше не нужно было выбирать метку. Они могли просто указать, где находится объект, и модель генерировала для него маску. Это сделало сегментацию более гибкой, но пользователям по-прежнему нужно было показывать модели, куда смотреть. 

SAM , выпущенный в 2024 году, развил эту идею, обрабатывая более сложные сцены и расширяя возможность сегментации по подсказкам на видео. Он улучшил устойчивость в различных условиях освещения, при различных формах объектов и движении, при этом по-прежнему полагаясь в основном на визуальные подсказки для сегментации.

Модель SAM является последним шагом в этой эволюции. Она была выпущена в прошлом году и представляет собой унифицированную модель, которая сочетает в себе визуальное понимание с языковым руководством, обеспечивая согласованное поведение при выполнении задач сегментации изображений и видео. 

С SAM пользователи не ограничены указанием или рисованием подсказок. Вместо этого они могут описать то, что хотят segment текста, и модель ищет в изображении или кадрах видео области, соответствующие этому описанию. 

Сегментация основана на концепциях, а не на фиксированных категориях объектов, что поддерживает открытое использование словарного запаса в различных ситуациях и на протяжении времени. Фактически, SAM работает в большом, обученном концептуальном пространстве, основанном на онтологии, полученной из таких источников, как Wikidata, и расширенной за счет крупномасштабных обучающих данных.

Рис. 2. Пример подсказки SAM и сегментирования одного изображения (Источник)

По сравнению с более ранними версиями, которые в основном полагались на геометрические подсказки, SAM представляет собой шаг в направлении более гибкой, концептуальной сегментации. Это делает его более подходящим для реальных приложений, где объекты или идеи, представляющие интерес, могут меняться и не всегда могут быть определены заранее.

Изучение принципа работы быстрой визуальной сегментации

Итак, как работает сегментация концепций с подсказкой? Она основана на больших предварительно обученных моделях зрения и языка зрения, которые являются моделями, обученными на огромных коллекциях изображений и, во многих случаях, сопряженных текстах. Это обучение позволяет им усваивать общие визуальные шаблоны и семантическое значение.

Большинство моделей PCS используют архитектуру на основе трансформаторов, которые обрабатывают все изображение сразу, чтобы понять, как различные области связаны друг с другом. Трансформатор зрения извлекает визуальные характеристики из изображения, а текстовый кодировщик преобразует слова в числовые представления, с которыми может работать модель.

Во время обучения эти модели могут учиться на основе различных типов контроля, включая маски на уровне пикселей, которые определяют точные границы объектов, ограничительные рамки, которые примерно определяют местоположение объектов, и метки на уровне изображения, которые описывают то, что отображается на изображении. Обучение с использованием различных типов помеченных данных помогает модели улавливать как мелкие детали, так и более общие визуальные концепции.

Во время инференции, то есть когда модель фактически используется для прогнозирования, PCS следует процессу, управляемому подсказками. Пользователь предоставляет инструкции в виде текстовых описаний, визуальных подсказок, таких как точки или рамки, или примеров изображений. Модель кодирует как подсказку, так и изображение в общее внутреннее представление или вложения и идентифицирует области, которые соответствуют описанному концепту.

Затем декодер масок преобразует это общее представление в точные маски сегментации на уровне пикселей. Поскольку модель связывает визуальные характеристики с семантическим значением, она может segment концепции, даже если они не были явно включены в процесс обучения.

Кроме того, зачастую результат можно улучшить, скорректировав подсказку или добавив дополнительные указания, что помогает модели обрабатывать сложные или неоднозначные сцены. Этот итеративный процесс поддерживает практическую оптимизацию во время развертывания.

Модели сегментации концепций с подсказками обычно оцениваются по тому, насколько хорошо они segment невиданные концепции и насколько стабильно они работают в разных сценах. Тесты часто фокусируются на качестве маски, обобщении и вычислительной эффективности, отражая реальные требования к развертыванию.

Реальные примеры использования PCS

Далее давайте посмотрим, где уже используется сегментация концепций с подсказками и начинает оказывать реальное влияние.

Гибкая сегментация изображений для медицинской визуализации

Медицинская визуализация включает в себя множество биологических структур, заболеваний и типов сканирования, и каждый день появляются новые случаи. Традиционные модели сегментации с трудом справляются с таким разнообразием. 

PCS естественным образом вписывается в эту область, поскольку позволяет врачам описывать то, что они хотят найти, вместо того, чтобы выбирать из короткого, жесткого списка. С помощью текстовых фраз или визуальных подсказок PCS можно использовать для непосредственной segment или проблемных областей без переобучения модели для каждой новой задачи. Это упрощает работу с различными клиническими потребностями, снижает необходимость в ручном рисовании масок и работает со многими типами изображений.

Отличным примером является MedSAM-3, который адаптирует архитектуру SAM для PCS с текстовым подсказками в медицинской визуализации. Эта модель может получать подсказки с явными анатомическими и патологическими терминами, такими как названия органов, например печень или почка, и понятия, связанные с поражениями, например опухоль или поражение. Получив подсказку, модель непосредственно сегментирует соответствующую область на медицинском изображении.

MedSAM-3 также интегрирует мультимодальные большие языковые модели (MLLM или мультимодальные LLM), которые могут обрабатывать как текст, так и изображения. Эти модели работают в режиме «agent-in-the-loop», где результаты итеративно уточняются для повышения точности в более сложных случаях.

Рис. 3. Конвейер MedSAM-3 для сегментации опухолей на медицинских изображениях по текстовым подсказкам (Источник)

MedSAM-3 демонстрирует высокую эффективность при работе с данными рентгеновских, МРТ, КТ, УЗИ и видео, подчеркивая, как PCS может обеспечить более гибкие и эффективные рабочие процессы медицинской визуализации в реальных клинических условиях.

Адаптивная сегментация для роботизированной хирургии и автоматизации

Роботизированная хирургия полагается на системы видения для track и понимания быстро меняющихся хирургических ситуаций. Инструменты быстро перемещаются, освещение меняется, и в любой момент могут появиться новые инструменты, что затрудняет поддержание заранее определенных систем маркировки.

С помощью PCS роботы могут track , направлять камеры и следить за ходом операции в режиме реального времени. Это сокращает объем ручной маркировки и упрощает адаптацию систем к различным процедурам. Хирурги или автоматизированные системы могут использовать текстовые подсказки, такие как «захват», «скальпель» или «инструмент камеры», чтобы указать, что должно быть выделено на изображении.

Рис. 4. Сегментация хирургических инструментов, используемых во время роботизированной хирургии (Источник)

Сегментация с открытым словарем с помощью Ultralytics

Еще одной интересной современной моделью, связанной с сегментацией концептов по подсказке, является наша Ultralytics . Наша модель добавляет сегментацию с открытым словарем и подсказками в семействоYOLO Ultralytics YOLO .

YOLOE-26 построен на архитектуре Ultralytics и поддерживает сегментацию экземпляров с открытым словарем. YOLOE-26 позволяет пользователям управлять сегментацией несколькими способами. 

Он поддерживает текстовые подсказки, в которых короткие, визуально обоснованные фразы могут указывать целевой объект, а также визуальные подсказки, которые предоставляют дополнительные указания на основе изображений. Кроме того, YOLOE-26 включает режим без подсказок для нулевого вывода, в котором модель обнаруживает и сегментирует объекты из встроенного словаря без необходимости ввода подсказок пользователем.

YOLOE-26 отлично подходит для таких приложений, как видеоаналитика, робототехника и пограничные системы, где категории объектов могут меняться, но низкая задержка и надежная пропускная способность остаются важными факторами. Он также особенно полезен для маркировки данных и курирования наборов данных, поскольку оптимизирует рабочие процессы за счет автоматизации части процесса аннотирования.

Плюсы и минусы сегментации концепций с подсказками

Вот некоторые из основных преимуществ использования сегментации концепций с подсказками:

  • Более быстрая итерация и прототипирование: новые задачи сегментации можно быстро протестировать, изменив подсказки, а не перестраивая наборы данных или переобучая модели, что ускоряет экспериментирование и разработку.
  • Адаптируемость в различных областях: одна и та же модель PCS часто может применяться в различных областях, таких как медицинская визуализация, робототехника или видеоаналитика, с минимальными изменениями в рабочем процессе.
  • Интерактивная доработка: пользователи могут постепенно настраивать подсказки или добавлять рекомендации для улучшения результатов, что упрощает работу с неоднозначными сценами или крайними случаями без повторного обучения.

Несмотря на явные преимущества PCS, следует учитывать некоторые ограничения:

  • Чувствительность подсказки: небольшие изменения в том, как написана или предоставлена подсказка, могут повлиять на результат. Слишком расплывчатые или слишком конкретные подсказки могут привести к неполной или неверной сегментации.
  • Менее предсказуемое поведение: поскольку модель интерпретирует подсказки, а не выбирает из фиксированных меток, результаты могут больше варьироваться в зависимости от сцен и входных данных, что может стать проблемой для строго контролируемых конвейеров.
  • Неоднозначная интерпретация концепций: некоторые концепции являются субъективными или слабо определены, что может привести к несогласованным результатам сегментации между пользователями или между изображениями.
  • Ограниченная надежность для высокоспецифических задач: модели на основе подсказок, как правило, менее надежны для узкоспецифических задач, таких как обнаружение дефектов, где требуется точная и последовательная идентификация тонких особенностей.

Выбор между подсказываемой и традиционной сегментацией

Изучая сегментацию с подсказками, вы можете задаться вопросом, для каких приложений она лучше всего подходит, а в каких случаях для решения поставленной задачи лучше использовать традиционную модель компьютерного зрения, такую как YOLO26. Сегментация с подсказками хорошо подходит для общих объектов, но не подходит для случаев, когда требуются очень точные и последовательные результаты.

Хорошим примером является обнаружение дефектов. В производстве дефекты часто бывают крошечными и незаметными, такими как небольшие царапины, вмятины, неровности или неровности поверхности. Они также могут сильно различаться в зависимости от материалов, освещения и условий производства. 

Эти проблемы сложно описать с помощью простого подсказки, и еще сложнее detect с помощью модели общего назначения. В целом, модели на основе подсказок, как правило, пропускают дефекты или дают нестабильные результаты, в то время как модели, обученные специально на данных о дефектах, гораздо более надежны для реальных систем контроля.

Основные выводы

Сегментация по запросу упрощает адаптацию систем технического зрения к реальному миру, где постоянно появляются новые объекты и идеи. Вместо того чтобы быть привязанными к фиксированным меткам, пользователи могут просто описать то, что они хотят segment модель сделает все остальное, что экономит время и сокращает ручную работу. Несмотря на то, что PCS все еще имеет ограничения, она уже меняет то, как сегментация используется на практике, и, вероятно, станет основной частью будущих систем технического зрения.

Узнайте больше об искусственном интеллекте, посетив наш репозиторий GitHub и присоединившись к нашему сообществу. Ознакомьтесь с нашими страницами решений, чтобы узнать об искусственном интеллекте в робототехнике и компьютерном зрении в производстве. Ознакомьтесь с нашими вариантами лицензирования, чтобы начать использовать Vision AI уже сегодня!

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно