Узнайте, как паноптическая сегментация объединяет семантическую сегментацию и сегментацию экземпляров для точного понимания сцен на уровне пикселей в приложениях ИИ.
Паноптическая сегментация - это единая задача компьютерного зрения (КВ), которая объединяет возможности двух различных подходов - семантическойсегментации и сегментации экземпляров, чтобыобеспечить комплексное понимание изображения на уровне пикселей. В то время как другие методы могут быть направлены исключительно на идентификацию объектов или Паноптическая сегментация присваивает уникальную метку каждому пикселю в визуальной сцене. Этот процесс различает "вещи" - аморфные фоновые области, такие как небо, дорога или трава, и "вещами" - поддающимися учету объектами, такими как люди, автомобили и животные. Объединяя эти методы, системы искусственного интеллекта (ИИ) достигают целостного восприятия окружающей среды, имитируя детальное восприятие человеческого зрения.
Чтобы в полной мере осознать ценность паноптической сегментации, необходимо отличать ее от смежных задач задач сегментации изображений:
Современные паноптикумы, как правило, используют мощные фреймворки глубокого обучения (DL). В них часто используется общий экстрактор признаков, или основу, например Конволюционная нейронная сеть (CNN) или трансформатор зрения (ViT). Сеть затем разделяется на две специализированные головки: одну для семантического анализа и другую для идентификации экземпляров. Усовершенствованные алгоритмы объединяют эти результаты для разрешения конфликтов, таких как перекрывающиеся предсказания, в результате чего получается целостная паноптикум карта.
Для обучения этих моделей требуются обширные аннотированных наборов данных. Популярными эталонами являются COCO Dataset, в котором представлен разнообразный набор повседневных объектов, и Cityscapes, который специализируется на городских уличных сценах, необходимых для автомобильных исследований.
Детализация, обеспечиваемая паноптическим сегментированием, преобразует отрасли, которые полагаются на машинное обучение (ML) для навигации и взаимодействия с физическим миром.
Хотя полные паноптические архитектуры могут требовать больших вычислительных затрат, компонент "вещи" - идентификация отдельных экземпляров объектов - эффективно обрабатывается Ultralytics YOLO11. YOLO11 обеспечивает современное в режиме реального времени, что делает его отличным выбором для приложений, требующих скорости и точности.
Следующие Python пример демонстрирует, как использовать
ultralytics пакет для выполнения сегментации экземпляров - ключевого элемента паноптикума:
from ultralytics import YOLO
# Load a pretrained YOLO11 instance segmentation model
model = YOLO("yolo11n-seg.pt")
# Run inference to detect and segment individual objects ('things')
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with segmentation masks
results[0].show()
Для разработчиков, создающих сложные конвейеры, такие фреймворки, как PyTorch и библиотеки такие как OpenCV позволяют проводить дальнейшую обработку этих карт сегментации. Вы можете узнать больше о обучении пользовательских моделей сегментации под конкретный проект в документации Ultralytics .