Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024

Руководство по архитектуре U-Net и ее приложениям

Абирами Вина

5 мин чтения

15 июля 2025 г.

Узнайте об архитектуре U-Net, о том, как она поддерживает сегментацию изображений, о ее применениях и о том, почему она важна в эволюции компьютерного зрения.

Компьютерное зрение — это раздел искусственного интеллекта (ИИ), который фокусируется на анализе визуальных данных. Он проложил путь для многих передовых систем, таких как автоматизация процесса проверки продукции на заводах и помощь автономным транспортным средствам в навигации по дорогам. 

Одной из самых известных задач компьютерного зрения является обнаружение объектов. Эта задача позволяет моделям находить и идентифицировать объекты на изображении с помощью ограничивающих рамок. Хотя ограничивающие рамки полезны для различных приложений, они дают лишь приблизительную оценку местоположения объекта.

Однако в таких областях, как здравоохранение, где точность имеет решающее значение, варианты использования Vision AI зависят не только от идентификации объекта. Часто они также требуют информации, связанной с точной формой и положением объектов.

Это именно то, для чего предназначена задача компьютерного зрения – сегментация. Вместо использования ограничивающих рамок модели сегментации обнаруживают объекты на уровне пикселей. За прошедшие годы исследователи разработали специализированные модели компьютерного зрения для сегментации.

Одной из таких моделей является U-Net. Хотя более новые, продвинутые модели превзошли ее по производительности, U-Net занимает важное место в истории компьютерного зрения. В этой статье мы подробнее рассмотрим архитектуру U-Net, как она работает, где она использовалась и как она соотносится с более современными моделями сегментации, доступными сегодня.

Рис. 1. Пример сегментации с использованием модели глубокого обучения U-Net. (Источник)

История сегментации изображений

Прежде чем мы углубимся в то, что такое U-Net, давайте сначала лучше поймем, как развивались модели сегментации изображений.

Первоначально компьютерное зрение основывалось на традиционных методах, таких как обнаружение краев, пороговая обработка или выращивание областей, для разделения объектов на изображении. Эти методы использовались для обнаружения границ объектов с использованием краев, разделения областей по интенсивности пикселей и группировки похожих пикселей. Они работали в простых случаях, но часто давали сбои, когда изображения содержали шум, перекрывающиеся формы или нечеткие границы.

После подъема глубокого обучения в 2012 году исследователи представили концепцию полностью сверточных сетей (FCN) в 2014 году для таких задач, как семантическая сегментация. Эти модели заменили определенные части сверточной сети, чтобы позволить компьютеру смотреть на все изображение целиком, вместо того чтобы разбивать его на более мелкие части. Это позволило модели создавать подробные карты, которые более четко показывают, что находится на изображении.

Рис. 2. Эволюция алгоритмов сегментации на основе глубокого обучения. (Источник)

Основываясь на FCN, U-Net была представлена исследователями из Фрайбургского университета в 2015 году. Первоначально она была разработана для сегментации биомедицинских изображений. В частности, U-Net была разработана для хорошей работы в ситуациях, когда аннотированные данные ограничены. 

Между тем, более поздние версии, такие как UNet++ и TransUNet, добавили улучшения, такие как слои внимания и улучшенное извлечение признаков. Слои внимания помогают модели сосредоточиться на ключевых областях, а улучшенное извлечение признаков позволяет получить более подробную информацию.

Что такое U-Net и как признаки передаются через модель?

U-Net — это модель глубокого обучения, разработанная специально для сегментации изображений. Она принимает изображение в качестве входных данных и создает маску сегментации, которая классифицирует каждый пиксель в соответствии с объектом или областью, к которой он принадлежит.

Модель получила свое название от U-образной архитектуры. Она состоит из двух основных частей: энкодера, который сжимает изображение и изучает его признаки, и декодера, который расширяет его обратно до исходного размера. Эта конструкция создает симметричную U-образную форму, которая помогает модели понимать как общую структуру изображения, так и его более мелкие детали.

Одной из важнейших особенностей U-Net является использование пропускных соединений, которые позволяют передавать информацию от кодировщика непосредственно декодеру. Это означает, что модель может сохранять важные детали, которые могут быть потеряны при сжатии изображения. 

Обзор архитектуры U-Net

Вот краткий обзор архитектуры U-Net:

  • Входное изображение: U-Net начинает с 2D-изображения, такого как медицинский снимок или спутниковая фотография. Цель состоит в том, чтобы присвоить метку класса каждому пикселю на изображении.

  • Понижающая дискретизация: Изображение проходит через сверточные слои, которые изучают важные визуальные признаки. По мере того как изображение перемещается по разным слоям, его разрешение уменьшается, и модель определяет более широкие закономерности.

  • Bottleneck layer (узкий слой): В центре сети карты признаков достигают своего наименьшего пространственного разрешения, захватывая при этом семантические признаки высокого уровня. Проще говоря, это сжатое представление карт признаков является общим контекстом входных данных.

  • Повышающая дискретизация: Затем сеть реконструирует изображение, постепенно увеличивая разрешение. Транспонированные свертки помогают расширить карты признаков обратно к исходному размеру.

  • Skip connections: Карты признаков из пути понижающей дискретизации объединяются с картами признаков из пути повышающей дискретизации. Это помогает сохранить детализированные пространственные детали при интеграции контекстной информации высокого уровня.
  • На выходе получается карта сегментации: Конечным результатом является попиксельная маска сегментации, соответствующая размеру входного изображения. Каждый пиксель классифицируется по категориям, таким как объект, фон или область интереса.
Рис. 3. Схема архитектуры U-Net. (Источник)

Понимание разницы между ViT и U-Net

Когда вы изучаете U-Net, вам может быть интересно, чем она отличается от других моделей глубокого обучения, таких как Vision Transformer (ViT), которые также могут выполнять задачи сегментации. Хотя обе модели могут выполнять схожие задачи, они различаются с точки зрения того, как они построены и как они обрабатывают сегментацию.

U-Net работает, обрабатывая изображения на уровне пикселей через сверточные слои в структуре энкодер-декодер. Она часто используется для задач, требующих точной сегментации, таких как медицинские сканы или сцены с участием самоуправляемых автомобилей. 

С другой стороны, Vision Transformer (ViT) разбивает изображения на фрагменты и обрабатывает их одновременно с помощью механизмов внимания. Он использует самовнимание (механизм, который позволяет модели оценивать важность различных частей изображения относительно друг друга) для захвата того, как различные части изображения связаны друг с другом, в отличие от сверточного подхода U-Net.

Еще одно важное различие заключается в том, что ViT обычно требуется больше данных для хорошей работы, но он отлично справляется с выявлением сложных закономерностей. U-Net, с другой стороны, хорошо работает с небольшими наборами данных, быстрее обучается и часто требует меньше времени на обучение.

Применение модели U-Net

Теперь, когда у нас есть лучшее понимание того, что такое U-Net и как она работает, давайте рассмотрим, как U-Net применяется в различных областях.

Сегментация кровоизлияния в мозг в медицинской визуализации

U-Net стала надежным методом посегментной сегментации сложных медицинских изображений, особенно в период своего расцвета в исследованиях. Она использовалась исследователями для выделения ключевых областей на медицинских снимках, таких как опухоли и признаки внутреннего кровотечения на КТ и МРТ. Этот подход значительно повысил точность диагностики и упростил анализ сложных медицинских данных в исследовательских целях.

Одним из примеров влияния U-Net в медицинских исследованиях является ее использование для выявления инсультов и кровоизлияний в мозг на медицинских снимках. Исследователи могут использовать U-Net для анализа сканов головы и выделения проблемных областей, что позволяет быстрее выявлять случаи, требующие немедленного внимания.

Рис. 4. Сегментация геморрагических поражений при инсульте с использованием 3D U-Net. (Источник)

Сегментация посевов в сельском хозяйстве

Еще одна область, где исследователи использовали U-Net, — сельское хозяйство, в частности, для сегментации посевов, сорняков и почвы. Это помогает фермерам отслеживать здоровье растений, оценивать урожайность и принимать более эффективные решения в крупных хозяйствах. Например, U-Net может отделять посевы от сорняков, что делает применение гербицидов более эффективным и сокращает отходы.

Для решения таких проблем, как размытие изображения при движении на изображениях с дронов, исследователи улучшили U-Net с помощью методов устранения размытия изображений. Это обеспечивает более четкую сегментацию даже при сборе данных во время движения, например, во время аэрофотосъемки.

Рис. 5. Разделение сельскохозяйственных культур от сорняков на сельскохозяйственных полях с помощью U-Net.

Автономное вождение

До появления более продвинутых моделей ИИ, U-Net играла важную роль в изучении того, как сегментация может улучшить автономное вождение. В автономных транспортных средствах семантическая сегментация U-Net может использоваться для классификации каждого пикселя в изображении по категориям, таким как дорога, транспортное средство, пешеход и дорожная разметка. Это обеспечивает автомобилю четкое представление об окружающей обстановке, помогая в безопасной навигации и эффективном принятии решений.

Рис. 6. Сцена дороги, где область, пригодная для движения, сегментирована с использованием U-Net. (Источник)

Плюсы и минусы U-Net

Даже сегодня U-Net остается хорошим выбором для сегментации изображений среди исследователей благодаря балансу простоты, точности и адаптируемости. Вот некоторые из ключевых преимуществ, которые выделяют его:

  • Адаптируемость для различных модальностей: U-Net была адаптирована к различным типам данных, включая 3D-медицинские сканы, спутниковые снимки и даже видеокадры.

  • Быстрый вывод при оптимизации: При правильной настройке U-Net может работать эффективно, что делает его подходящим для приложений реального времени или почти реального времени.

  • Открытый исходный код и сообщество: U-Net доступна во всех основных библиотеках глубокого обучения и поддерживается большим сообществом разработчиков и исследователей.

Хотя U-Net имеет много сильных сторон, есть и несколько ограничений, о которых следует помнить. Вот некоторые факторы, которые следует учитывать: 

  • Чувствительность к качеству данных: На производительность U-Net может негативно повлиять низкое качество данных, такое как шумные изображения или изображения с низким разрешением.

  • Склонность к переобучению на небольших наборах данных: Несмотря на то, что U-Net хорошо работает с ограниченными данными, она все же рискует переобучиться, если ее не правильно регуляризовать, особенно когда набор данных слишком мал или ему не хватает разнообразия.

  • Вычислительные ресурсы: U-Net может быть вычислительно затратной, особенно при работе с большими наборами данных, требуя значительных аппаратных ресурсов для обучения.

Основные выводы

U-Net стала важной вехой в развитии сегментации изображений. Она доказала, что модели глубокого обучения могут давать точные результаты, используя небольшие наборы данных, особенно в таких областях, как медицинская визуализация. 

Этот прорыв открыл путь для более продвинутых приложений в различных областях. Поскольку компьютерное зрение продолжает развиваться, модели сегментации, такие как U-Net, остаются основополагающими для того, чтобы машины могли понимать и интерпретировать визуальные данные с высокой точностью.

Хотите создать свои собственные проекты компьютерного зрения? Изучите наш репозиторий GitHub, чтобы глубже погрузиться в ИИ, и ознакомьтесь с нашими вариантами лицензирования. Узнайте, как компьютерное зрение в здравоохранении повышает эффективность, и изучите влияние ИИ в розничной торговле, посетив страницы наших решений! Присоединяйтесь к нашему растущему сообществу прямо сейчас!

Давайте строить будущее
ИИ вместе!

Начните свой путь в будущее машинного обучения

Начать бесплатно
Ссылка скопирована в буфер обмена