Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Паноптическая сегментация

Узнайте, как паноптическая сегментация объединяет семантическую сегментацию и сегментацию экземпляров для точного понимания сцен на уровне пикселей в приложениях ИИ.

Паноптическая сегментация - это единая задача компьютерного зрения (КВ), которая объединяет возможности двух различных подходов - семантическойсегментации и сегментации экземпляров, чтобыобеспечить комплексное понимание изображения на уровне пикселей. В то время как другие методы могут быть направлены исключительно на идентификацию объектов или Паноптическая сегментация присваивает уникальную метку каждому пикселю в визуальной сцене. Этот процесс различает "вещи" - аморфные фоновые области, такие как небо, дорога или трава, и "вещами" - поддающимися учету объектами, такими как люди, автомобили и животные. Объединяя эти методы, системы искусственного интеллекта (ИИ) достигают целостного восприятия окружающей среды, имитируя детальное восприятие человеческого зрения.

Разница между техниками сегментации

Чтобы в полной мере осознать ценность паноптической сегментации, необходимо отличать ее от смежных задач задач сегментации изображений:

  • Семантическая сегментация: Этот метод присваивает метку класса каждому пикселю, но рассматривает несколько объектов одной категории как единое целое. объект. Например, толпа людей помечается как единый регион "человек", без выделения отдельных членов.
  • Сегментация экземпляров: Эта техника направлена исключительно на идентификацию и разграничение отдельных счетных объектов ("вещей"). Она генерирует точную ограничительную рамку и маску для каждого "автомобиля" или "пешехода", но обычно игнорирует фоновые элементы.
  • Паноптическая сегментация: Этот подход объединяет оба подхода, гарантируя, что ни один пиксель не останется неклассифицированным. Он обеспечивает контекст для фона ("вещи"), сохраняя уникальную идентичность объектов переднего плана объектов ("вещей"). Эта концепция была формализована в эпохальной работе FAIR (Meta AI), установив строгий стандарт для полного разбора сцены разбора сцены.

Как работают паноптикумы

Современные паноптикумы, как правило, используют мощные фреймворки глубокого обучения (DL). В них часто используется общий экстрактор признаков, или основу, например Конволюционная нейронная сеть (CNN) или трансформатор зрения (ViT). Сеть затем разделяется на две специализированные головки: одну для семантического анализа и другую для идентификации экземпляров. Усовершенствованные алгоритмы объединяют эти результаты для разрешения конфликтов, таких как перекрывающиеся предсказания, в результате чего получается целостная паноптикум карта.

Для обучения этих моделей требуются обширные аннотированных наборов данных. Популярными эталонами являются COCO Dataset, в котором представлен разнообразный набор повседневных объектов, и Cityscapes, который специализируется на городских уличных сценах, необходимых для автомобильных исследований.

Применение в реальном мире

Детализация, обеспечиваемая паноптическим сегментированием, преобразует отрасли, которые полагаются на машинное обучение (ML) для навигации и взаимодействия с физическим миром.

  • Автономные транспортные средства: Самоуправляемые автомобили от таких компаний, как Waymo и Tesla, зависят от полного понимания сцены. Паноптические модели позволяют автомобилю определять поверхности для движения (семантические "вещи"), одновременно отслеживая траекторию движения отдельных пешеходов и других транспортных средств (инстанционные "вещи").
  • Анализ медицинских изображений: В здравоохранении точность имеет решающее значение. Анализ снимки МРТ часто требует различать общие типы тканей и конкретные аномалии. Паноптическое сегментирование помогает радиологам идентифицировать фоновые органы, одновременно подсчитывая и измеряя отдельные опухолевые клетки, что способствует точному обнаружении опухоли.
  • Робототехника и сельское хозяйство: Роботы в В неструктурированных средах эта технология используется для манипулирования и навигации. В точном сельском хозяйстве автоматические комбайны могут различать ряды сельскохозяйственных культур (фон) и отдельные спелые плоды (объекты), чтобы собирать продукцию, не повреждая растения.

Сегментация экземпляров с помощью YOLO

Хотя полные паноптические архитектуры могут требовать больших вычислительных затрат, компонент "вещи" - идентификация отдельных экземпляров объектов - эффективно обрабатывается Ultralytics YOLO11. YOLO11 обеспечивает современное в режиме реального времени, что делает его отличным выбором для приложений, требующих скорости и точности.

Следующие Python пример демонстрирует, как использовать ultralytics пакет для выполнения сегментации экземпляров - ключевого элемента паноптикума:

from ultralytics import YOLO

# Load a pretrained YOLO11 instance segmentation model
model = YOLO("yolo11n-seg.pt")

# Run inference to detect and segment individual objects ('things')
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with segmentation masks
results[0].show()

Для разработчиков, создающих сложные конвейеры, такие фреймворки, как PyTorch и библиотеки такие как OpenCV позволяют проводить дальнейшую обработку этих карт сегментации. Вы можете узнать больше о обучении пользовательских моделей сегментации под конкретный проект в документации Ultralytics .

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас