Руководство по архитектуре U-Net и ее применению

Абирами Вина

5 минут чтения

15 июля 2025 года

Узнайте об архитектуре U-Net, о том, как она поддерживает сегментацию изображений, о ее применении и о том, почему она играет важную роль в развитии компьютерного зрения.

Компьютерное зрение - это направление искусственного интеллекта (ИИ), которое занимается анализом визуальных данных. Оно проложило путь для многих передовых систем, таких как автоматизация процесса проверки продукции на заводах и помощь автономным автомобилям в навигации по дорогам. 

Одна из самых известных задач компьютерного зрения - обнаружение объектов. Эта задача позволяет моделям находить и идентифицировать объекты на изображении с помощью ограничительных рамок. Хотя ограничительные рамки полезны для различных приложений, они дают лишь приблизительную оценку местоположения объекта.

Однако в таких областях, как здравоохранение, где точность очень важна, применение Vision AI зависит не только от идентификации объекта. Часто им также требуется информация, связанная с точной формой и положением объектов.

Именно для этого предназначена задача компьютерного зрения - сегментация. Вместо того чтобы использовать ограничивающие рамки, модели сегментации обнаруживают объекты на уровне пикселей. На протяжении многих лет исследователи разрабатывали специализированные модели компьютерного зрения для сегментации.

Одной из таких моделей является U-Net. Хотя новые, более совершенные модели превзошли ее по производительности, U-Net занимает важное место в истории компьютерного зрения. В этой статье мы подробно рассмотрим архитектуру U-Net, принцип ее работы, места применения и сравнение с более современными моделями сегментации, доступными сегодня.

Рис. 1. Пример сегментации с использованием модели глубокого обучения U-Net.(Источник)

История сегментации изображений

Прежде чем мы погрузимся в суть U-Net, давайте узнаем, как развивались модели сегментации изображений.

Изначально для разделения объектов на изображении компьютерное зрение опиралось на традиционные методы, такие как обнаружение краев, пороговое выделение или выращивание областей. Эти методы использовались для определения границ объектов с помощью краев, разделения областей по интенсивности пикселей и группировки похожих пикселей. Они работали в простых случаях, но часто оказывались неэффективными, когда на изображениях присутствовали шумы, перекрывающиеся фигуры или нечеткие границы.

После появления глубокого обучения в 2012 году, в 2014 году исследователи представили концепцию полностью конволюционных сетей (FCN) для таких задач, как семантическая сегментация. Эти модели заменили некоторые части конволюционной сети, чтобы позволить компьютеру рассматривать все изображение сразу, а не разбивать его на мелкие части. Это позволило модели создавать подробные карты, которые более четко показывают, что находится на изображении.

Рис. 2. Эволюция алгоритмов сегментации на основе глубокого обучения.(Источник)

На основе FCNs в 2015 году исследователи Фрайбургского университета представили сеть U-Net. Изначально она была разработана для сегментации биомедицинских изображений. В частности, U-Net была разработана для работы в ситуациях, когда аннотированные данные ограничены. 

В последующих версиях, таких как UNet++ и TransUNet, были добавлены такие усовершенствования, как слои внимания и улучшенное извлечение признаков. Слои внимания помогают модели фокусироваться на ключевых областях, а улучшенное извлечение признаков позволяет получить более подробную информацию.

Что такое U-Net и как функции проходят через модель?

U-Net - это модель глубокого обучения, созданная специально для сегментации изображений. Она принимает изображение на вход и создает маску сегментации, которая классифицирует каждый пиксель в соответствии с объектом или регионом, к которому он принадлежит.

Модель получила свое название благодаря U-образной архитектуре. Она состоит из двух основных частей: кодера, который сжимает изображение и изучает его особенности, и декодера, который разворачивает его до исходного размера. Такая конструкция создает симметричную U-образную форму, что помогает модели понимать как общую структуру изображения, так и его мелкие детали.

Одна из важнейших особенностей U-Net - использование пропускных соединений, которые позволяют передавать информацию от кодера непосредственно к декодеру. Это означает, что модель может сохранять важные детали, которые могут быть потеряны при сжатии изображения. 

Обзор архитектуры U-Net

Вот примерная схема работы архитектуры U-Net:

  • Входное изображение: U-Net начинает работу с двумерного изображения, например, медицинского снимка или фотографии со спутника. Задача состоит в том, чтобы присвоить каждому пикселю на изображении метку класса.

  • Даунсэмплинг: Изображение проходит через конволюционные слои, которые изучают важные визуальные особенности. По мере прохождения изображения через различные слои его разрешение уменьшается, и модель выявляет более широкие закономерности.

  • Слой "узкого места": В центре сети карты признаков достигают наименьшего пространственного разрешения и при этом захватывают высокоуровневые семантические признаки. Проще говоря, это сжатое представление карт признаков является общим контекстом входного сигнала.

  • Апсемплинг: Сеть восстанавливает изображение, постепенно увеличивая разрешение. Транспонированные свертки помогают расширить карты признаков до исходного размера.

  • Пропуск соединений: Карты признаков, полученные в ходе понижающей дискретизации, объединяются с картами, полученными в ходе повышающей дискретизации. Это позволяет сохранить мелкие пространственные детали и одновременно интегрировать высокоуровневую контекстную информацию.
  • На выходе получается карта сегментации: Конечным результатом является попиксельная сегментация, соответствующая размеру входного изображения. Каждый пиксель классифицируется по категориям: объект, фон или область интереса.
Рис. 3. Схема архитектуры U-Net.(Источник)

Понимание разницы между ViT и U-Net

Изучая U-Net, вы можете задаться вопросом, чем она отличается от других моделей глубокого обучения, таких как Vision Transformer (ViT), которые также могут выполнять задачи сегментации. Хотя обе модели могут выполнять схожие задачи, они отличаются друг от друга тем, как они построены и как они работают с сегментацией.

U-Net работает, обрабатывая изображения на уровне пикселей с помощью конволюционных слоев в структуре кодер-декодер. Она часто используется в задачах, требующих точной сегментации, например в медицинских снимках или сценах вождения самоуправляемых автомобилей. 

С другой стороны, Vision Transformer (ViT) разбивает изображения на участки и обрабатывает их одновременно с помощью механизмов внимания. В отличие от конволюционного подхода U-Net, он использует самовнимание (механизм, позволяющий модели оценивать важность различных частей изображения по отношению друг к другу), чтобы уловить, как различные части изображения соотносятся друг с другом.

Еще одно важное отличие заключается в том, что для успешной работы ViT обычно требуется больше данных, но она отлично справляется с поиском сложных закономерностей. U-Net, с другой стороны, хорошо работает с небольшими наборами данных, быстрее обучается и часто требует меньше времени на обучение.

Применение модели U-Net

Теперь, когда мы лучше понимаем, что такое U-Net и как она работает, давайте рассмотрим, как U-Net применяется в различных областях.

Сегментация кровоизлияний в мозг при медицинской визуализации

U-Net стала надежным методом сегментации сложных медицинских изображений на уровне пикселей, особенно в период ее расцвета в научных исследованиях. Он использовался исследователями для выделения ключевых областей на медицинских снимках, таких как опухоли и признаки внутреннего кровотечения на КТ- и МРТ-изображениях. Этот подход значительно повысил точность диагнозов и упростил анализ сложных медицинских данных в исследовательских учреждениях.

Одним из примеров влияния U-Net на исследования в области здравоохранения является ее использование для выявления инсульта и кровоизлияния в мозг на медицинских снимках. Исследователи могут использовать U-Net для анализа снимков головы и выделения проблемных зон, что позволит быстрее выявлять случаи, требующие немедленного вмешательства.

Рис. 4. Сегментация очагов геморрагического инсульта с помощью 3D U-Net.(Источник)

Сегментация культур в сельском хозяйстве

Еще одна область применения U-Net - сельское хозяйство, в частности, для сегментирования культур, сорняков и почвы. Это помогает фермерам следить за состоянием растений, оценивать урожайность и принимать более эффективные решения в рамках крупных хозяйств. Например, U-Net позволяет отделить сельскохозяйственные культуры от сорняков, что делает применение гербицидов более эффективным и сокращает количество отходов.

Для решения таких проблем, как размытие изображения при движении, исследователи усовершенствовали U-Net с помощью методов размытия изображения. Это обеспечивает более четкую сегментацию, даже если данные собираются во время движения, как, например, при воздушной съемке.

Рис. 5. Отделение культур от сорняков на сельскохозяйственных полях с помощью U-Net.(Источник)

Автономное вождение

До появления более совершенных моделей искусственного интеллекта U-Net сыграла важную роль в изучении того, как сегментация может улучшить автономное вождение. В автономных автомобилях семантическая сегментация U-Net может использоваться для классификации каждого пикселя на изображении по таким категориям, как дорога, транспорт, пешеходы и разметка полосы движения. Благодаря этому автомобиль получает четкое представление о своем окружении, что способствует безопасной навигации и принятию эффективных решений.

Рис. 6. Дорожная сцена с сегментацией зоны движения с помощью U-Net.(Источник)

Плюсы и минусы U-Net

Даже сегодня U-Net остается хорошим выбором для сегментации изображений среди исследователей благодаря балансу простоты, точности и адаптивности. Вот некоторые из ключевых преимуществ, которые выделяют ее на фоне других:

  • Возможность адаптации к различным модальностям: U-Net адаптирована к различным типам данных, включая медицинские 3D-сканы, спутниковые снимки и даже видеокадры.

  • Быстрые выводы при оптимизации: При правильной настройке U-Net может работать эффективно, что делает ее подходящей для приложений реального или близкого к реальному времени.

  • Открытый исходный код и сообщество: U-Net доступна в основных библиотеках глубокого обучения и поддерживается большим сообществом разработчиков и исследователей.

У U-Net много достоинств, но есть и несколько ограничений, о которых следует помнить. Вот некоторые факторы, которые следует учитывать: 

  • Чувствительность к качеству данных: На производительность U-Net могут негативно повлиять данные низкого качества, например, шумные изображения или изображения с низким разрешением.

  • Склонность к переоценке при работе с небольшими наборами данных: Хотя U-Net хорошо работает с ограниченными данными, она все же рискует переборщить, если не будет должным образом регуляризирована, особенно если набор данных слишком мал или недостаточно разнообразен.

  • Вычислительные ресурсы: U-Net может быть вычислительно дорогой, особенно при работе с большими наборами данных, требуя значительных аппаратных ресурсов для обучения.

Основные выводы

U-Net стала ключевой вехой в развитии сегментации изображений. Она доказала, что модели глубокого обучения могут давать точные результаты, используя небольшие наборы данных, особенно в таких областях, как медицинская визуализация. 

Этот прорыв открыл путь для более совершенных приложений в различных областях. Поскольку компьютерное зрение продолжает развиваться, модели сегментации, подобные U-Net, остаются основополагающими для того, чтобы машины могли понимать и интерпретировать визуальные данные с высокой точностью.

Хотите создать свои собственные проекты в области компьютерного зрения? Изучите наш репозиторий GitHub, чтобы глубже погрузиться в мир ИИ и ознакомиться с нашими возможностями лицензирования. Узнайте, как компьютерное зрение в здравоохранении повышает эффективность, и изучите влияние ИИ в розничной торговле, посетив страницы наших решений! Присоединяйтесь к нашему растущему сообществу прямо сейчас!

Давайте вместе построим будущее
искусственного интеллекта!

Начните свое путешествие в будущее машинного обучения

Начните бесплатно
Ссылка копируется в буфер обмена