Что такое сегментация экземпляров? Краткое руководство
Присоединяйся к нам, чтобы подробнее узнать о том, что такое сегментация экземпляров, как она работает, где применяется в компьютерном зрении и какое влияние оказывает.

Приложения компьютерного зрения становятся всё более привычными в нашей повседневной жизни: от камер наблюдения за дорожным движением до систем самостоятельной оплаты в магазинах. Позволяя машинам понимать визуальные данные подобно человеку, vision AI оказывает влияние на целый ряд отраслей.
Многие из этих приложений опираются на обнаружение объектов — задачу компьютерного зрения, при которой вокруг ключевых объектов на изображениях выстраиваются ограничивающие рамки. Хотя этот подход часто работает эффективно, некоторым решениям для анализа изображений требуется еще большая точность.
Например, медицинская визуализация требует большего, чем просто обнаружение опухоли — критически важно очертить её точную форму. Аналогично, в робототехнике машинам необходимо распознавать точные контуры объекта, чтобы правильно его захватить. Для решения этих задач сегментация экземпляров предлагает более точное решение.
Сегментация экземпляров — это задача компьютерного зрения, предназначенная для сценариев, где одного обнаружения объектов недостаточно; она обеспечивает точность на уровне пикселей. Модели компьютерного зрения, такие как Ultralytics YOLO11, позволяют легко применять сегментацию экземпляров к изображениям и видео.

Рис 1. Пример использования YOLO11 для сегментации экземпляров.
В этом руководстве мы разберем, как работает сегментация экземпляров, где она применяется и как можно настроить Ultralytics YOLO11 для конкретных задач сегментации.
Link to this sectionЧто такое сегментация экземпляров?#
Допустим, есть групповое фото людей, стоящих близко друг к другу. Обнаружение объектов поможет обвести каждого человека рамкой, но это не даст представления об их точной форме.
Сегментация экземпляров, с другой стороны, похожа на аккуратную обводку каждого человека, чтобы видеть их полный контур, даже если они перекрывают друг друга. Вместо того чтобы просто отмечать местоположение объекта рамкой, она определяет точную форму каждого объекта на уровне пикселей, что упрощает понимание сложных изображений.
Результатом является детальная маска, которая заполняет форму объекта, точно указывая, какие пиксели ему принадлежат. Такой уровень точности полезен во многих реальных приложениях, где важно понимать точную форму и границы объектов.

Рис 2. Демонстрация поддержки сегментации экземпляров в YOLO11.
Link to this sectionСегментация экземпляров vs семантическая сегментация#
Изучая сегментацию экземпляров, ты можешь столкнуться с понятием семантической сегментации.
Оба метода помогают компьютерам понимать изображения на пиксельном уровне, но служат разным целям. Семантическая сегментация помечает каждый пиксель на основе его категории, группируя все объекты одного типа вместе. Например, на изображении с несколькими автомобилями семантическая сегментация отметит их все как «автомобиль», не различая отдельные транспортные средства.
Сегментация экземпляров, напротив, делает шаг вперед, идентифицируя каждый объект отдельно. Она присваивает уникальные метки отдельным экземплярам и создает точные маски вокруг их форм. Поэтому на том же изображении сегментация экземпляров не просто пометит всё как «автомобиль», а распознает и выделит каждый автомобиль по отдельности.
Главное различие между ними заключается в том, что семантическая сегментация группирует объекты по категориям, в то время как сегментация экземпляров рассматривает каждый объект как уникальную сущность с четкими границами. Выбор задачи зависит от конкретного приложения — достаточно ли просто знать, что находится на изображении, или важно различать отдельные объекты.

Рис 3. Сегментация экземпляров vs семантическая сегментация (справа и слева соответственно).
Link to this sectionПопулярные модели для сегментации экземпляров#
Сегодня сообществу vision AI доступно множество моделей для сегментации экземпляров. Некоторые из них быстрее, другие — точнее, а какие-то — проще в использовании.
Эти варианты, будучи полезными, могут привести к вопросу: какую из них выбрать для конкретной задачи? Среди множества вариантов модели Ultralytics YOLO весьма популярны, так как они фокусируются на скорости и точности.
Кроме того, эти модели значительно эволюционировали с годами. Например, Ultralytics YOLOv5 упростила развертывание с использованием таких фреймворков, как PyTorch, сделав продвинутый vision AI доступным для более широкой аудитории без необходимости глубоких технических знаний.
Развивая этот успех, Ultralytics YOLOv8 представила улучшенную поддержку задач компьютерного зрения, таких как сегментация экземпляров, оценка позы и классификация изображений.
Теперь YOLO11 выводит производительность на новый уровень. Она достигает более высокого среднего показателя точности (mAP) на наборе данных COCO, имея на 22% меньше параметров, чем YOLOv8m, а это значит, что модель может распознавать объекты более точно, используя при этом меньше ресурсов.

Рис 4. Бенчмаркинг YOLO11.
Проще говоря, YOLO11 обеспечивает современную точность без ущерба для эффективности, что делает её настоящим прорывом в этой области.
Link to this sectionПонимание принципов работы сегментации экземпляров#
Давай разберемся, как обычно работает сегментация экземпляров. Более старые модели компьютерного зрения используют двухэтапный подход.
Сначала они обнаруживают объекты, рисуя ограничивающие рамки вокруг них. Затем они генерируют маску на уровне пикселей, чтобы очертить точную форму каждого объекта. Известный пример — Mask R-CNN, которая расширяет модели обнаружения объектов шагом предсказания маски. Хотя этот метод эффективен, он может быть медленным, так как обрабатывает изображение в несколько этапов, что затрудняет работу в режиме реального времени.
В то же время, модели вроде YOLO11 обрабатывают изображения за один проход, одновременно предсказывая ограничивающие рамки объектов и маски сегментации экземпляров. Такой оптимизированный подход делает их намного быстрее при сохранении высокой точности. В результате они особенно полезны для приложений реального времени, таких как автономное вождение, анализ видео и робототехника, где критически важны и скорость, и точность.
Link to this sectionПользовательское обучение YOLO11 для сегментации экземпляров#
Из коробки YOLO11 поставляется как предобученная модель. Она была обучена на датасете COCO-Seg, который охватывает повседневные объекты для сегментации экземпляров. Однако Python-пакет Ultralytics поддерживает пользовательское обучение, что необходимо для специализированных приложений, где требуется сегментировать уникальные объекты.
Почему пользовательское обучение или дообучение модели так важно? Пользовательское обучение использует трансферное обучение (transfer learning), опираясь на знания, уже заложенные в предобученные модели. Вместо обучения с нуля, этот процесс адаптирует существующую модель к новым задачам, используя меньшие наборы данных и меньше вычислительных ресурсов, при этом сохраняя высокую точность.
Link to this sectionКак обучить YOLO11 под свои задачи#
Вот подробнее о шагах, необходимых для дообучения YOLO11 для сегментации экземпляров:
- Подготовка данных: Собери и разметь изображения в соответствии с твоей конкретной задачей. Ultralytics поддерживает множество наборов данных изображений, но ты также можешь обучаться на своем собственном датасете, подготовив изображения и аннотации в требуемом формате YOLO.
- Использование предобученной модели: Вместо того чтобы начинать с чистого листа, возьми предобученную модель Ultralytics YOLO11.
- Обучение модели: Настрой важные параметры обучения, такие как batch size (изображения, обрабатываемые за одну итерацию), размер изображения (целевое входное разрешение) и эпохи (общее количество циклов обучения), и запусти процесс обучения.
- Оценка производительности: После завершения обучения модели ты можешь протестировать её точность с помощью таких метрик, как mAP. Python-пакет Ultralytics также предоставляет встроенные функции для оценки модели.
Link to this sectionПриложения сегментации экземпляров, использующие YOLO11#
Сегментация экземпляров может применяться для решения реальных задач, помогая машинам видеть и понимать объекты более точно. От улучшения автоматизации до защиты окружающей среды, она играет ключевую роль во многих областях. Давай разберем примеры того, где она оказывает влияние.
Link to this sectionБезопасность на стройплощадке и мониторинг с использованием YOLO11#
Сегментация экземпляров может стать критически важной частью обеспечения безопасности и эффективности на строительных площадках. Например, её можно использовать для мониторинга тяжелой техники.
YOLO11 можно дообучить для точной сегментации и идентификации различных типов оборудования, таких как краны, экскаваторы и бульдозеры, и отслеживания их местоположения в реальном времени. Это позволяет руководителям площадки убедиться, что техника работает строго в отведенных зонах и не заходит на участки, где присутствуют рабочие или существуют опасности.
Также интеграция таких решений с системами оповещения в реальном времени позволяет оперативно принимать корректирующие меры. Кроме того, полученные данные могут помочь оптимизировать планировку и рабочий процесс на площадке, дополнительно снижая риски и повышая производительность.

Рис 5. Мониторинг тяжелой техники с помощью YOLO11.
Link to this sectionМониторинг животных с помощью сегментации и YOLO11#
Мониторинг поведения животных помогает исследователям, фермерам и защитникам природы лучше заботиться о животных в различных условиях. Сегментация экземпляров играет полезную роль в этих системах, идентифицируя и сегментируя отдельных животных на фермах, в зоопарках и естественных средах обитания. В отличие от традиционного обнаружения объектов, использующего рамки, сегментация экземпляров обеспечивает выделение каждого животного на уровне пикселей, что особенно полезно, когда они находятся близко друг к другу.
Детальная сегментация способствует более точному отслеживанию перемещений и поведения. Перекрывающиеся или плотно сгруппированные животные могут быть отчетливо распознаны, что обеспечивает более точный анализ взаимодействий, оценку здоровья и паттернов активности. В целом, более глубокое понимание поведения животных улучшает практику ухода и управления.

Рис 6. Мониторинг скота с помощью сегментации экземпляров.
Link to this sectionYOLO11 в спортивной аналитике и отслеживании игроков#
Точное отслеживание игроков и событий — огромная часть спортивного анализа. Традиционные методы отслеживания полагаются на ручную разметку, которая может не уловить детали взаимодействий. Компьютерное зрение можно использовать для сегментации таких деталей, как каждый игрок, мяч и ключевое событие на пиксельном уровне, для получения глубоких инсайтов.
Например, сегментация экземпляров может помочь обнаруживать такие события, как фолы или эпизоды без мяча, путем четкого разделения каждого игрока и объекта. Такой детальный мониторинг, обеспечиваемый моделями вроде YOLO11, предлагает аналитикам более ясную информацию для изучения паттернов движения, пространственного позиционирования и взаимодействий с высокой точностью. Ключевым преимуществом этих данных является то, что они помогают командам совершенствовать свои стратегии и повышать общую эффективность.
Link to this sectionПреимущества и недостатки сегментации экземпляров#
Вот некоторые ключевые преимущества, которые сегментация экземпляров может принести различным отраслям:
- Улучшенная автоматизация: Автоматизируя такие задачи, как контроль качества и мониторинг безопасности, сегментация экземпляров снижает потребность в ручном вмешательстве и минимизирует человеческие ошибки.
- Лучшее понимание сцены: Точно очерчивая каждый объект, сегментация экземпляров способствует более глубокому пониманию сложных сцен, поддерживая принятие более обоснованных решений.
- Эффективная постобработка: Вывод на уровне пикселей упрощает такие задачи, как удаление фона, подсчет объектов и пространственный анализ, сокращая потребность в дополнительных этапах обработки.
Хотя эти преимущества подчеркивают влияние сегментации экземпляров на различные варианты использования, также важно учитывать сложности, связанные с её реализацией.
Вот некоторые ключевые ограничения сегментации экземпляров:
- Проблемы с прозрачностью: Сегментация прозрачных или отражающих объектов, таких как стекло или вода, затруднена, что приводит к неточным границам.
- Затраты на обслуживание: Для поддержания актуальности и точности моделей необходимы постоянные обновления и дообучение по мере изменения условий окружающей среды и наборов данных.
- Высокие усилия по аннотированию: Обучение моделей сегментации экземпляров требует детальных аннотаций на уровне пикселей, что значительно увеличивает время и стоимость подготовки данных.
Link to this sectionОсновные выводы#
Сегментация экземпляров позволяет различать отдельные объекты с высокой точностью, даже когда они перекрываются. Захватывая границы объектов на уровне пикселей, она обеспечивает более глубокое понимание визуальных данных по сравнению с традиционными задачами компьютерного зрения, такими как обнаружение объектов.
Недавние достижения в компьютерном зрении сделали сегментацию экземпляров быстрее и проще в использовании. В частности, такие модели, как Ultralytics YOLO11, упрощают этот процесс, обеспечивая сегментацию в реальном времени с минимальной настройкой, что делает её более доступной для различных отраслей и приложений.
Хочешь узнать больше об ИИ? Посети наш репозиторий на GitHub и присоединяйся к нашему сообществу для продолжения исследований. Узнавай об инновациях, таких как ИИ в беспилотных автомобилях и vision AI в сельском хозяйстве, на наших страницах с решениями. Ознакомься с нашими вариантами лицензирования и приступай к своему проекту по компьютерному зрению!






