Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Семантическая сегментация

Изучите семантическую сегментацию для понимания изображений на уровне пикселей. Узнайте, как обучить и развернуть точные модели сегментации с помощью Ultralytics уже сегодня.

Семантическая сегментация — это задача компьютерного зрения, которая заключается в разделении изображения на отдельные области путем присвоения каждому отдельному пикселю определенной метки класса. В отличие от более простых задач, таких как классификация изображений, при которой всему изображению присваивается одна метка, или обнаружение объектов, при котором вокруг объектов рисуются ограничительные рамки, семантическая сегментация обеспечивает понимание сцены на уровне пикселей. Такой детальный анализ имеет решающее значение для приложений, в которых точная форма и границы объекта так же важны, как и его идентичность. Он позволяет машинам «видеть» мир так же, как люди, различая точные пиксели, из которых состоит дорога, пешеход или опухоль на медицинском скане.

Как работает семантическая сегментация

По сути, семантическая сегментация рассматривает изображение как сетку пикселей, которые необходимо классифицировать. Модели глубокого обучения, в частности сверточные нейронные сети (CNN), являются стандартной архитектурой для этой задачи. Типичная архитектура, такая как широко используемая U-Net, использует структуру кодировщик-декодер. Кодировщик сжимает входное изображение для извлечения высокоуровневых характеристик (таких как текстуры и формы), а декодер повышает разрешение этих характеристик до исходного разрешения изображения для генерации точной маски сегментации.

Для этого модели обучаются на больших аннотированных наборах данных, в которых аннотаторы-люди тщательно раскрасили каждый пиксель в соответствии с его классом. Такие инструменты, как Ultralytics , облегчают этот процесс, предлагая функции автоматической аннотации, которые ускоряют создание высококачественных данных о реальных условиях. После обучения модель выдает маску, в которой каждое значение пикселя соответствует идентификатору класса, эффективно «окрашивая» изображение смыслом.

Различение смежных понятий

Часто семантическую сегментацию путают с другими задачами на уровне пикселей. Понимание различий является ключом к выбору правильного подхода для проекта:

  • Сегментация экземпляров: В то время как семантическая сегментация рассматривает все объекты одного класса как единое целое (например, все «автомобили» окрашены в синий цвет), сегментация экземпляров различает отдельные объекты (например, «автомобиль A» синего цвета, «автомобиль B» красного цвета).
  • Паноптическая сегментация: Это сочетание обоих концепций. Она присваивает класс каждому пикселю (семантический), одновременно разделяя отдельные экземпляры подсчитываемых объектов (экземпляр), обеспечивая наиболее полное понимание сцены.

Применение в реальном мире

Способность анализировать визуальные данные с пиксельной точностью стимулирует инновации во многих отраслях с высокими ставками:

  • ИИ в автомобилестроении: Автономные транспортные средства в значительной степени полагаются на сегментацию для безопасного перемещения. Определяя зоны, пригодные для движения, и тротуары, а также точно выделяя пешеходов, автомобили и препятствия, системы автономного вождения могут принимать критически важные решения в режиме реального времени.
  • ИИ в здравоохранении: в медицинской визуализации модели segment , поражения или опухоли по данным компьютерной томографии и МРТ. Это помогает радиологам рассчитывать объем опухоли для планирования лечения или с высочайшей точностью управлять инструментами для роботизированной хирургии.
  • ИИ в сельском хозяйстве: фермеры используют аэрофотоснимки, сделанные с помощью дронов, и сегментацию для мониторинга состояния посевов. Классифицируя пиксели как «здоровые посевы», «сорняки» или «почва», автоматизированные системы могут нацеливать распыление гербицидов, сокращая использование химикатов и оптимизируя урожайность.

Реализация сегментации с помощью Ultralytics

Современные модели сегментации должны обеспечивать баланс между точностью и скоростью, особенно для выводы в режиме реального времени на периферийных устройствах. Ultralytics YOLO26 модель семьи включает специализированные модели сегментации (обозначенные -seg суффикс), которые изначально являются сквозными и обеспечивают превосходную производительность по сравнению со старыми архитектурами, такими как YOLO11.

Следующий пример демонстрирует, как выполнить сегментацию изображения с помощью ultralytics Python . Это позволяет создавать бинарные маски, которые определяют границы объектов.

from ultralytics import YOLO

# Load a pre-trained YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the results
# This will display the image with the segmentation masks overlaid
results[0].show()

Проблемы и будущие направления

Несмотря на значительный прогресс, семантическая сегментация остается вычислительно интенсивной задачей. Создание классификации для каждого отдельного пикселя требует значительных GPU и памяти. Исследователи активно работают над оптимизацией этих моделей с целью повышения их эффективности, изучая такие методы, как квантование моделей, чтобы запускать тяжелые сети на мобильных телефонах и встроенных устройствах.

Кроме того, необходимость в огромных наборах помеченных данных является узким местом. Для решения этой проблемы отрасль движется в направлении генерации синтетических данных и самостоятельного обучения, что позволяет моделям обучаться на основе необработанных изображений без необходимости миллионов ручных меток пикселей. По мере совершенствования этих технологий можно ожидать, что сегментация станет еще более распространенной в интеллектуальных камерах, робототехнике и приложениях дополненной реальности.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас