Изучите паноптическую сегментацию для объединения семантической и экземплярной сегментации. Узнайте, как Ultralytics обеспечивает точное понимание сцены для проектов искусственного интеллекта.
Паноптическая сегментация — это комплексная задача компьютерного зрения (CV), которая объединяет две различные формы анализа изображений: семантическую сегментацию и сегментацию экземпляров. В то время как традиционные методы рассматривают эти задачи отдельно — либо классифицируя фоновые области, такие как «небо» или «трава», в целом, либо обнаруживая конкретные объекты, такие как «автомобиль» или «человек», — паноптическая сегментация объединяет их в единую, целостную структуру. Этот подход присваивает уникальное значение каждому пикселю изображения, обеспечивая полное понимание сцены, которое различает поддающиеся подсчету объекты (называемые «вещами») и аморфные области фона (называемые «вещами»). Обеспечивая учет и классификацию каждого пикселя, эта техника более точно имитирует зрительное восприятие человека, чем изолированные методы обнаружения.
Чтобы полностью понять паноптическую сегментацию, полезно понять дихотомию визуальной информации, которую она обрабатывает. Задача делит визуальный мир на две основные категории:
Это различие имеет решающее значение для передовых систем искусственного интеллекта (ИИ), позволяя им ориентироваться в окружающей среде и одновременно взаимодействовать с конкретными объектами.
Современные архитектуры паноптической сегментации обычно используют мощную основу глубокого обучения (DL), такую как сверточная нейронная сеть (CNN) или Vision Transformer (ViT), для извлечения богатых представлений признаков из изображения. Сеть обычно делится на две ветви или «головки»:
Затем модуль слияния или этап постобработки разрешает конфликты между этими выходами — например, решает, принадлежит ли пиксель к экземпляру «человек» или к «фоновой» стене позади него — для создания окончательной неперекрывающейся паноптической карты сегментации.
Целостный характер паноптической сегментации делает ее незаменимой для отраслей, в которых безопасность и контекст имеют первостепенное значение.
Хотя полное паноптическое обучение может быть сложным, разработчики могут достичь высокоточной сегментации экземпляров— критически важного компонента паноптической головоломки — с помощью Ultralytics . Эта современная модель обеспечивает производительность в режиме реального времени и оптимизирована для развертывания на периферии.
Следующий Python демонстрирует, как загрузить предварительно обученную модель сегментации и запустить инференцию для выделения отдельных объектов:
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to segment individual instances
# The model identifies 'things' and generates pixel-perfect masks
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with overlaid segmentation masks
results[0].show()
Для команд, которые хотят управлять своими учебными данными и автоматизировать процесс аннотирования, Ultralytics предоставляет набор инструментов для управления наборами данных и обучения моделей. Высококачественное аннотирование данных имеет решающее значение для задач сегментации, поскольку модели требуют точных меток на уровне пикселей для эффективного обучения.
Понимание нюансов между типами сегментации имеет решающее значение для выбора правильной модели для вашего проекта:
Для более подробного изучения форматов наборов данных, используемых в этих задачах, вы можете ознакомиться с документациейCOCO , который является стандартным бенчмарком для измерения производительности сегментации.