Разбираемся в сегментации концепций с поддержкой подсказок
Изучи сегментацию концепций с поддержкой подсказок (promptable concept segmentation), чем она отличается от традиционных методов и как модели, такие как YOLOE-26, обеспечивают возможности работы с открытым словарем.

Vision AI стремительно развивается и активно используется для анализа изображений и видео в реальных условиях. Например, приложения, от систем управления дорожным движением до аналитики в ритейле, внедряют модели компьютерного зрения.
Во многих таких приложениях модели зрения, например, детекторы объектов, обучаются распознавать заранее определенный набор объектов: транспортные средства, людей, оборудование. В процессе обучения модели показывают множество размеченных примеров, чтобы они научились распознавать вид каждого объекта и выделять его среди остальных на сцене.
Для задач сегментации модели идут дальше: они создают точные контуры объектов на уровне пикселей. Это позволяет системам четко понимать, где именно находится каждый объект на изображении.
Это отлично работает, пока системе нужно распознавать только то, на чем ее обучали. Однако в реальных условиях это бывает редко.
Визуальные сцены, как правило, динамичны. Появляются новые объекты и визуальные концепции, меняются условия, и пользователям часто нужно сегментировать объекты, которые не входили в исходный набор для обучения.
Эти ограничения особенно заметны в задачах сегментации. По мере развития Vision AI растет потребность в более гибких моделях сегментации, которые могли бы адаптироваться к новым концепциям без постоянного переобучения. Именно поэтому сегментация концепций по промптам (PCS) привлекает всё больше внимания.
Вместо опоры на фиксированный список категорий объектов пользователи могут описывать, что именно они хотят сегментировать, используя текст, визуальные подсказки или примеры изображений. Такие модели затем находят и сегментируют все области, соответствующие описанной концепции, даже если эта концепция не была явно включена в данные при обучении.
В этой статье мы разберем, как работает сегментация концепций по промптам, чем она отличается от традиционных подходов и где применяется сегодня.
Link to this sectionЧто такое сегментация концепций по промптам?#
В большинстве случаев модели сегментации обучаются распознавать короткий список типов объектов. Это отлично работает, когда системе Vision AI нужно обнаруживать и сегментировать только конкретный набор объектов.
Однако в реальных приложениях визуальные сцены динамичны. Появляются новые объекты, требования к задачам меняются, и пользователям часто нужно сегментировать концепции, которые не были включены в исходный набор меток. Поддержка таких ситуаций обычно означает сбор новых высококачественных данных и аннотаций, а также переобучение модели, что увеличивает затраты и замедляет развертывание.
Сегментация концепций по промптам решает эту проблему, позволяя пользователям сообщать модели, что именно нужно искать, вместо выбора из фиксированного списка меток. Пользователи описывают объект или идею, которую они ищут, а модель выделяет все соответствующие области на изображении. Это значительно упрощает связь намерений пользователя с реальными пикселями на изображении.

Рис 1. Пример использования промптов концепций для сегментации (Источник)
Link to this sectionУправление сегментацией с помощью различных типов промптов#
Модели, поддерживающие сегментацию концепций по промптам, обладают гибкостью, так как могут принимать разные типы входных данных. Другими словами, есть не один способ подсказать модели, что искать: можно использовать текстовые описания, визуальные подсказки или примеры изображений.
Давай разберем каждый подход подробнее:
- Текстовые промпты: Краткие фразы, такие как «школьный автобус» или «область опухоли», можно использовать для описания концепции для сегментации. Модель интерпретирует смысл слов и идентифицирует соответствующие области.
- Визуальные промпты: Эти промпты используют точки, боксы (BBox) или грубые наброски на изображении в качестве подсказок. Эти метки направляют внимание модели и помогают сформировать финальную границу.
- Примеры изображений: Исходные изображения или небольшие фрагменты представляют собой концепцию интереса. Модель ищет визуально похожие области и сегментирует их на основе визуального сходства.
Link to this sectionРазница между PCS и традиционной сегментацией#
Прежде чем мы перейдем к тому, как работает сегментация концепций по промптам, давай сначала сравним ее с различными традиционными методами сегментации объектов.
PCS позволяет создавать модели с открытым словарем (open-vocabulary), управляемые промптами. Она может работать с новыми идеями, описанными через промпты, в то время как традиционная сегментация — нет. Существует несколько различных типов традиционных подходов к сегментации, каждый из которых имеет свои допущения и ограничения.
Вот краткий обзор ключевых типов традиционной сегментации:
- Семантическая сегментация: Каждый пиксель изображения помечается как часть категории, например «дорога», «здание» или «человек». Все пиксели с одинаковой меткой группируются вместе, поэтому модель не разделяет отдельные экземпляры объектов.
- Сегментация экземпляров: Модель идентифицирует и сегментирует отдельные объекты, поэтому два человека или два автомобиля рассматриваются как отдельные элементы.
- Паноптическая сегментация: Этот метод объединяет семантическую сегментацию и сегментацию экземпляров, предоставляя полное представление о сцене, охватывающее как фоновые области, так и отдельные объекты.
Все эти подходы полагаются на заранее определенный список категорий объектов. Они хорошо работают в рамках этого списка, но плохо справляются с концепциями вне его. Когда требуется сегментировать новый специфический объект, обычно требуются дополнительные обучающие данные и дообучение модели.
PCS стремится изменить это. Вместо привязки к заранее определенным категориям она позволяет описывать то, что ты хочешь сегментировать на изображении, прямо во время вывода (inference).
Link to this sectionЭволюция моделей PCS#
Давай проследим, как модели сегментации эволюционировали в сторону сегментации концепций по промптам.
Популярной базовой моделью, ознаменовавшей сдвиг в сегментации, стала SAM (Segment Anything Model). Она была представлена в 2023 году. Вместо того чтобы полагаться на предопределенные категории объектов, SAM позволила пользователям управлять сегментацией с помощью простых визуальных промптов, таких как точки или ограничивающие рамки (BBox).
С SAM пользователям больше не нужно было выбирать метку. Они могли просто указать, где находится объект, и модель генерировала для него маску. Это сделало сегментацию более гибкой, но пользователям все равно нужно было показывать модели, куда смотреть.
SAM 2, выпущенная в 2024 году, развила эту идею, начав работать с более сложными сценами и расширив сегментацию по промптам на видео. Она улучшила устойчивость к различным условиям освещения, формам объектов и движению, при этом все еще полагаясь в основном на визуальные промпты для управления сегментацией.
Модель SAM 3 — это последний шаг в этой эволюции. Выпущенная в прошлом году, она представляет собой унифицированную модель, сочетающую визуальное понимание с языковым управлением, что обеспечивает согласованное поведение в задачах сегментации изображений и видео.
С SAM 3 пользователи больше не ограничены только точками или рамками. Теперь они могут описывать то, что хотят сегментировать, с помощью текста, а модель ищет на изображении или кадрах видео области, соответствующие этому описанию.
Сегментация управляется концепциями, а не фиксированными категориями объектов, что поддерживает использование открытого словаря в разных сценах и с течением времени. SAM 3 работает с большим пространством изученных концепций, основанным на онтологии из таких источников, как Wikidata, и расширенным за счет масштабных обучающих данных.

Рис 2. Пример использования промптов для SAM 3 и сегментации изображения (Источник)
По сравнению с предыдущими версиями, полагавшимися в основном на геометрические промпты, SAM 3 — это шаг к более гибкой сегментации, управляемой концепциями. Это делает ее лучше подходящей для реальных приложений, где объекты или идеи интереса могут меняться и не всегда могут быть определены заранее.
Link to this sectionРазбираемся, как работает сегментация концепций по промптам#
Итак, как работает сегментация концепций по промптам? Она основана на крупных предобученных моделях зрения и визуально-языковых моделях, обученных на огромных коллекциях изображений и, во многих случаях, парных текстов. Такое обучение позволяет им усваивать общие визуальные закономерности и семантический смысл.
Большинство моделей PCS используют архитектуры на основе Transformer, которые обрабатывают все изображение целиком, чтобы понять, как различные области соотносятся друг с другом. Vision Transformer извлекает визуальные признаки из изображения, а текстовый энкодер преобразует слова в числовые представления, с которыми модель может работать.
Во время обучения такие модели могут использовать разные типы контроля: маски на уровне пикселей, определяющие точные границы объектов; BBox, приблизительно локализующие объекты; и метки уровня изображения, описывающие то, что на нем изображено. Обучение на разных видах размеченных данных помогает модели улавливать как мелкие детали, так и более широкие визуальные концепции.
На этапе вывода (inference), то есть когда модель используется для создания предсказаний, PCS следует процессу, управляемому промптами. Пользователь предоставляет руководство через текстовые описания, визуальные подсказки (точки или боксы) или примеры изображений. Модель кодирует как промпт, так и изображение в общее внутреннее представление (эмбеддинги) и идентифицирует области, соответствующие описанной концепции.
Затем декодер масок преобразует это общее представление в точные маски сегментации на уровне пикселей. Поскольку модель связывает визуальные признаки с семантическим смыслом, она может сегментировать новые концепции, даже если они не были явно включены в данные при обучении.
Кроме того, результат часто можно улучшить, настроив промпт или добавив дополнительные указания, что помогает модели справляться со сложными или неоднозначными сценами. Этот итеративный процесс поддерживает практическую оптимизацию при развертывании.
Модели сегментации концепций по промптам обычно оцениваются по тому, насколько хорошо они сегментируют ранее не встречавшиеся концепции и насколько надежно работают в разных сценах. Бенчмарки часто фокусируются на качестве масок, обобщающей способности и вычислительной эффективности, что отражает требования реального развертывания.
Link to this sectionПримеры реального использования PCS#
Далее давай посмотрим, где уже используется сегментация концепций по промптам и где она начинает оказывать реальное влияние.
Link to this sectionГибкая сегментация изображений в медицине#
Медицинская визуализация включает множество биологических структур, заболеваний и типов сканирования, а новые случаи появляются каждый день. Традиционные модели сегментации с трудом поспевают за таким разнообразием.
PCS естественно вписывается в эту сферу, потому что позволяет врачам описывать, что они хотят найти, вместо выбора из короткого и жесткого списка. С помощью текстовых фраз или визуальных промптов PCS можно использовать для сегментации органов или зон интереса напрямую, без переобучения модели под каждую новую задачу. Это упрощает решение разнообразных клинических задач, снижает потребность в ручной прорисовке масок и работает с разными типами медицинской визуализации.
Отличный пример — MedSAM-3, которая адаптирует архитектуру SAM 3 для сегментации PCS по текстовым промптам в медицине. Модель можно направлять явными анатомическими и патологическими терминами: названиями органов (например, печень или почка) и понятиями, связанными с поражениями (опухоль, очаг). Получив промпт, модель сегментирует соответствующую область на медицинском снимке.
MedSAM-3 также интегрирует мультимодальные большие языковые модели (MLLM или мультимодальные LLM), способные рассуждать как над текстом, так и над изображениями. Эти модели работают в режиме «агент в контуре» (agent-in-the-loop), где результаты уточняются итеративно для повышения точности в сложных случаях.

Рис 3. Конвейер MedSAM-3 для сегментации опухолей по текстовым промптам на медицинских изображениях (Источник)
MedSAM-3 эффективно работает с данными рентгена, МРТ, КТ, УЗИ и видео, подчеркивая, как PCS может обеспечить более гибкие и эффективные рабочие процессы медицинской визуализации в реальных клинических условиях.
Link to this sectionАдаптивная сегментация для роботохирургии и автоматизации#
Роботизированная хирургия опирается на системы технического зрения для отслеживания инструментов и понимания быстро меняющихся хирургических сцен. Инструменты перемещаются быстро, освещение меняется, новые инструменты могут появиться в любой момент — всё это делает системы с предопределенными метками сложными в обслуживании.
С PCS роботы могут отслеживать инструменты, наводить камеры и следовать за ходом операции в реальном времени. Это сокращает объем ручной разметки и упрощает адаптацию систем к различным процедурам. Хирурги или автоматизированные системы могут использовать текстовые промпты, например «захват», «скальпель» или «камера», чтобы указать, что именно должно быть сегментировано на изображении.

Рис 4. Сегментация хирургических инструментов, используемых во время операции (Источник)
Link to this sectionСегментация с открытым словарем с помощью Ultralytics YOLOE-26#
Еще одна интересная современная модель, связанная с сегментацией концепций по промптам, — это наш Ultralytics YOLOE-26. Наша модель привносит сегментацию с открытым словарем, управляемую промптами, в семейство моделей Ultralytics YOLO.
YOLOE-26 построена на архитектуре Ultralytics YOLO26 и поддерживает сегментацию экземпляров с открытым словарем. YOLOE-26 позволяет пользователям управлять сегментацией несколькими способами.
Она поддерживает текстовые промпты, где краткие визуально обоснованные фразы могут определять целевой объект, а также визуальные промпты, предоставляющие дополнительные подсказки на основе характеристик изображения. Кроме того, YOLOE-26 включает режим без промптов для zero-shot инференса, где модель обнаруживает и сегментирует объекты из встроенного словаря без необходимости в пользовательских промптах.
YOLOE-26 отлично подходит для таких приложений, как видеоаналитика, восприятие в робототехнике и граничные системы, где категории объектов могут меняться, но важны низкая задержка и надежная пропускная способность. Она также особенно полезна для разметки данных и подготовки датасетов, так как оптимизирует рабочие процессы за счет автоматизации части процесса аннотирования.
Link to this sectionПлюсы и минусы сегментации концепций по промптам#
Вот некоторые из основных преимуществ использования сегментации концепций по промптам:
- Более быстрая итерация и прототипирование: Новые задачи сегментации можно быстро протестировать, просто изменив промпты, а не создавая заново датасеты или переобучая модели, что ускоряет эксперименты и разработку.
- Адаптивность в разных доменах: Одна и та же модель PCS часто может применяться в различных областях, таких как медицина, робототехника или видеоаналитика, с минимальными изменениями в рабочем процессе.
- Интерактивное уточнение: Пользователи могут итеративно корректировать промпты или добавлять подсказки для улучшения результатов, что упрощает работу со сложными сценами или граничными случаями без необходимости переобучения.
Хотя у PCS есть очевидные преимущества, стоит учитывать и некоторые ограничения:
- Чувствительность к промптам: Небольшие изменения в формулировке промпта могут повлиять на результат. Слишком расплывчатые или, наоборот, слишком специфичные промпты могут привести к неполной или неточной сегментации.
- Менее предсказуемое поведение: Поскольку модель интерпретирует промпты, а не выбирает из фиксированных меток, результаты могут сильнее варьироваться между сценами и входными данными, что может быть проблемой для жестко контролируемых систем.
- Неоднозначная интерпретация концепций: Некоторые концепции субъективны или слабо определены, что может приводить к несогласованным результатам сегментации у разных пользователей или на разных изображениях.
- Ограниченная надежность для узкоспециализированных целей: Модели на основе промптов, как правило, менее надежны для узко определенных задач (например, обнаружения дефектов), где требуется точная и стабильная идентификация мелких признаков.
Link to this sectionВыбор между сегментацией по промптам и традиционной сегментацией#
Изучая сегментацию по промптам, ты можешь задаться вопросом, для каких задач она подходит лучше всего и когда традиционная модель компьютерного зрения, такая как YOLO26, будет более предпочтительна для решения твоей проблемы. Сегментация по промптам хорошо работает с общими объектами, но не подходит для случаев, требующих очень точных и стабильных результатов.
Обнаружение дефектов — хороший тому пример. В производстве дефекты часто крошечные и едва заметные: царапины, вмятины, перекосы или нарушения поверхности. Они также могут сильно отличаться в зависимости от материалов, освещения и условий производства.
Эти проблемы трудно описать простым промптом, и еще сложнее надежно обнаружить модели общего назначения. В целом, модели на основе промптов склонны пропускать дефекты или давать нестабильные результаты, тогда как модели, обученные специально на данных о дефектах, гораздо надежнее для реальных систем контроля качества.
Link to this sectionОсновные выводы#
Сегментация концепций по промптам упрощает адаптацию систем зрения к реальному миру, где постоянно появляются новые объекты и идеи. Вместо привязки к жестким меткам пользователи могут просто описать то, что хотят сегментировать, и позволить модели сделать остальное, что экономит время и снижает объем ручной работы. Несмотря на сохраняющиеся ограничения, PCS уже меняет то, как сегментация используется на практике, и, вероятно, станет важной частью будущих систем технического зрения.
Узнай больше об ИИ, посетив наш репозиторий GitHub и присоединившись к нашему сообществу. Изучи наши страницы решений, чтобы узнать об ИИ в робототехнике и компьютерном зрении в производстве. Открой для себя наши варианты лицензирования, чтобы начать работу с Vision AI уже сегодня!






