Узнайте, как интерактивная сегментация использует подсказки с участием человека для выделения объектов. Узнайте, как использовать Ultralytics и Ultralytics для решения задач.
Интерактивная сегментация — это подход к компьютерному зрению, основанный на тесном взаимодействии, при котором пользователь вводит непрерывные или однократные данные — такие как клики, ограничительные рамки или текстовые подсказки — чтобы помочь модели искусственного интеллекта выделить конкретные объекты на изображении. В отличие от полностью автоматизированных методов, эта техника с участием человека позволяет пользователям точно определять, что именно необходимо сегментировать, что делает ее особенно ценной при работе с неоднозначными визуальными данными, перекрывающимися объектами или неизвестными классами. За последние несколько лет внедрение базовых моделей значительно повысило скорость и точность этого процесса, превратив его в важный инструмент для аннотирования данных и точной визуализации.
В основе этого рабочего процесса лежит сегментация по подсказкам, при которой модель интерпретирует указания пользователя для создания маски с идеальной точностью до пикселя. Пользователь может выполнить «положительный» щелчок по объекту на переднем плане, который он хочет выделить, и «отрицательный» щелчок по областям фона, которые он хочет исключить. Усовершенствованные модели, такие как Segment Anything Model (SAM) и ее последующие версии, Meta SAM , развивают эту идею, принимая различные типы жестов [1], ограничительные прямоугольники и даже текстовые описания для уточнения визуального поиска. Модель вычисляет оптимальную границу на основе этих подсказок, и пользователь может итеративно уточнять маску с помощью дополнительных щелчков, пока не будет достигнута желаемая точность.
Интерактивная сегментация преобразует рабочие процессы во многих отраслях, сочетая опыт специалистов с эффективностью искусственного интеллекта.
Хотя обе концепции предполагают разделение объектов на уровне пикселей, они преследуют разные операционные цели. Сегментация экземпляров, как правило, представляет собой полностью автоматизированный процесс, в котором модель, такая как Ultralytics , обнаруживает и выделяет заранее определенные классы (например, «автомобиль», «человек», «собака») без участия пользователя. Подробнее о том, как это работает, можно узнать из нашего руководства по сегментации экземпляров.
Напротив, интерактивная сегментация не зависит исключительно от заранее определённых классов. Она не зависит от классов, то есть сегментирует всё, на что указывает пользователь, благодаря чему она отлично подходит для процессов активного обучения, где новые объекты необходимо быстро аннотировать и добавлять в пользовательские наборы данных с помощью таких инструментов, как Ultralytics .
Вы можете легко реализовать интерактивную сегментацию в своих проектах с помощью
PyTorch и ultralytics Python . В этом
примере мы используем FastSAM чтобы segment конкретный объект,
указав границы рамки.
from ultralytics import FastSAM
# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")
# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])
# Display the segmented result on screen
results[0].show()
Этот фрагмент кода демонстрирует, как простой пространственный запрос напрямую помогает модели выделить интересующую область, упрощая сложные задачи сегментации изображений с помощью минимального количества кода.
Начните свой путь в будущее машинного обучения