Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Руководства

Что такое ResNet-50 и в чем его значимость для компьютерного зрения?

Узнай, как архитектура ResNet-50 обеспечивает классификацию изображений в реальных задачах в здравоохранении, производстве и автономных системах.

АБАбирами Вина
5 min read
Архитектура ResNet-50 для классификации изображений

Автоматизированный анализ изображений становится все более распространенным в таких задачах, как фиксация превышения скорости или анализ медицинских снимков. Технология, лежащая в основе этих инноваций, — это computer vision или AI в области зрения. Это направление искусственного интеллекта (AI), которое позволяет машинам интерпретировать и понимать изображения и видео так же, как это делают люди.

Для создания подобных computer vision solutions разработчики полагаются на модели AI, которые могут обучаться на больших объемах визуальных данных. С годами исследователи разработали более новые и совершенные модели, демонстрирующие впечатляющую производительность в vision AI tasks, таких как классификация изображений (присвоение меток изображениям), обнаружение объектов (поиск и идентификация объектов на изображениях) и сегментация экземпляров (обнаружение объектов и выделение их точных контуров).

Тем не менее, взгляд в прошлое и понимание более ранних моделей помогают осознать, как работают современные системы компьютерного зрения. Одним из ключевых примеров является ResNet-50 — влиятельная модель, которая представила концепцию «коротких связей» (shortcut connections) — простых путей, помогающих модели обучаться быстрее и точнее.

Эта инновация позволила эффективно обучать гораздо более глубокие нейронные сети, что привело к значительным улучшениям в области image classification и определило архитектуру многих последующих моделей. В этой статье мы рассмотрим ResNet-50, принцип его работы и его значимость в эволюции компьютерного зрения. Давай начнем!

Link to this sectionЧто такое ResNet-50?#

ResNet-50 — это модель компьютерного зрения, основанная на типе нейронных сетей под названием Convolutional Neural Network (CNN). Сети CNN спроектированы так, чтобы помогать компьютерам понимать визуальную информацию путем изучения паттернов на изображениях, таких как границы, цвета или формы, и использования этих паттернов для распознавания и классификации объектов.

Представленная в 2015 году исследователями из Microsoft Research, модель ResNet-50 быстро стала одной из самых влиятельных в этой области благодаря своей точности и эффективности при решении крупномасштабных задач распознавания изображений.

Ключевой особенностью ResNet-50 является использование остаточных связей (residual connections), также известных как «короткие связи» (shortcut connections). Это простые пути, которые позволяют модели пропускать некоторые этапы в процессе обучения. Иными словами, вместо того чтобы заставлять модель передавать информацию через каждый слой, эти связи позволяют передавать важные детали напрямую. Это делает обучение быстрее и надежнее.

Схема остаточных связей в архитектуре ResNet

Fig 1. Взгляд на остаточные связи в архитектуре ResNet.

Такая архитектура помогает решить распространенную проблему в глубоком обучении, называемую проблемой затухающего градиента. В очень глубоких моделях важная информация может теряться при прохождении через множество слоев, что затрудняет обучение модели.

Остаточные связи помогают предотвратить это, обеспечивая четкое прохождение информации от начала до конца. Именно поэтому модель называется ResNet-50: ResNet расшифровывается как Residual Network (остаточная сеть), а число «50» указывает на количество слоев, которые она использует для обработки изображения.

Link to this sectionОбзор принципа работы ResNet-50#

ResNet-50 имеет хорошо организованную структуру, которая позволяет модели быть глубокой, не теряя при этом важную информацию. Она следует простому повторяющемуся шаблону, который поддерживает эффективность при сохранении высокой производительности.

Давай подробнее рассмотрим, как устроена архитектура ResNet-50:

  • Базовая feature extraction: Модель начинает с применения математической операции, называемой сверткой. Она включает перемещение небольших фильтров (называемых ядрами) по изображению для создания карт признаков — новых версий изображения, подчеркивающих базовые паттерны, такие как границы или текстуры. Именно так модель начинает улавливать полезную визуальную информацию.
  • Изучение сложных признаков: По мере прохождения данных через сеть размер карт признаков уменьшается. Это достигается с помощью таких методов, как пулинг или использование фильтров с большими шагами (называемыми страйдами). В то же время сеть создает больше карт признаков, помогая ей улавливать все более сложные паттерны, такие как формы, части объектов или текстуры.
  • Сжатие и расширение данных: Каждый этап сжимает данные, обрабатывает их, а затем расширяет обратно. Это помогает модели обучаться, экономя память.
  • Короткие связи (Shortcut connections): Это простые пути, которые позволяют информации пропустить вперед, вместо того чтобы проходить через каждый слой. Они делают обучение более стабильным и эффективным.
  • Создание prediction: В конце сети вся изученная информация объединяется и проходит через функцию softmax. Это выдает распределение вероятностей по возможным классам, указывая на уверенность модели в каждом предсказании — например, 90% кошка, 9% собака, 1% автомобиль.

Схема архитектуры ResNet-50

Fig 2. Архитектура ResNet-50.

Link to this sectionКлючевые особенности ResNet-50#

Хотя ResNet-50 изначально был разработан для классификации изображений, его гибкая архитектура сделала его полезным во многих областях компьютерного зрения. Давай рассмотрим некоторые особенности, которые выделяют ResNet-50.

Link to this sectionИспользование ResNet-50 для классификации изображений#

ResNet-50 в первую очередь используется для image classification, где цель состоит в том, чтобы присвоить изображению одну метку. Например, если подать модели фотографию, она может классифицировать ее как собаку, кошку или самолет, основываясь на главном объекте, который видит.

Надежная архитектура и доступность в популярных библиотеках глубокого обучения, таких как PyTorch и TensorFlow, сделали ResNet-50 популярным выбором для обучения на больших наборах данных. Одним из самых известных примеров является ImageNet — огромная коллекция размеченных изображений, используемая для оценки и сравнения моделей компьютерного зрения.

Хотя более новые модели, такие как Ultralytics YOLO11, превосходят его, ResNet-50 до сих пор часто используется в качестве эталона (бенчмарка) благодаря отличному балансу между точностью, скоростью и простотой.

Использование ResNet-50 для классификации изображения собаки

Fig 3. Пример использования ResNet-50 для классификации собаки.

Link to this sectionОбнаружение объектов на базе бэкендов ResNet-50#

В то время как классификация изображений направлена на идентификацию главного объекта, object detection идет дальше, находя и помечая несколько объектов на одном изображении. Например, на изображении оживленной улицы модель должна обнаружить автомобили, автобусы и людей — и определить, где находится каждый из них.

ResNet-50 используется в качестве бэкбона (основы) в некоторых из таких моделей. Это означает, что он выполняет первую часть работы: анализирует изображение и извлекает важные детали, описывающие, что на нем изображено и где. Эти детали затем передаются в следующую часть модели, называемую «головой обнаружения» (detection head), которая принимает окончательные решения о том, какие объекты присутствуют на изображении и где они находятся.

Популярные модели обнаружения, такие как Faster R-CNN и DETR, используют ResNet-50 для этого этапа извлечения признаков. Поскольку он отлично справляется с захватом как мелких деталей, так и общей структуры изображения, это помогает моделям делать точные предсказания — даже в сложных сценах.

Link to this sectionTransfer learning с использованием ResNet-50#

Еще один интересный аспект модели ResNet-50 — ее способность поддерживать transfer learning. Это означает, что модель, изначально обученная на большом наборе данных, таком как ImageNet, может быть адаптирована к новым задачам при гораздо меньшем объеме данных.

Вместо обучения с нуля большинство слоев модели повторно используются, а заменяется и переобучается для новой задачи только последний слой классификации. Это экономит время и особенно полезно, когда объем размеченных данных ограничен.

Link to this sectionПрименение ResNet-50 в компьютерном зрении#

Архитектура ResNet-50 сделала его полезным для широкого спектра приложений компьютерного зрения. Он сыграл особую роль на заре глубокого обучения, помогая перевести технологию AI в сфере зрения из области научных исследований в реальную эксплуатацию. Решая ключевые проблемы, он помог подготовить почву для более продвинутых моделей, которые мы видим в современных приложениях.

Link to this sectionМедицинская визуализация на базе ResNet-50#

ResNet-50 был одной из ранних моделей, используемых в медицинской визуализации на основе глубокого обучения. Исследователи использовали его для выявления патологий на рентгеновских снимках, МРТ и других диагностических сканах. Например, он помог detect tumors и классифицировать diabetic retinal images для поддержки диагностики в офтальмологии.

Хотя сейчас в клинических инструментах используются более совершенные модели, ResNet-50 сыграл важную роль в ранних исследованиях медицинского AI. Простота использования и модульная архитектура сделали его подходящим выбором для создания прототипов диагностических систем.

Обнаружение опухолей головного мозга на медицинских сканах с помощью ResNet-50

Fig 4. Обнаружение опухоли головного мозга на базе ResNet-50.

Link to this sectionПромышленная автоматизация на базе ResNet-50#

Аналогичным образом ResNet-50 нашел применение в промышленных условиях. Например, в производстве он использовался в научных и пилотных системах для detect surface defects on materials, таких как сталь, бетон и окрашенные детали.

Его также тестировали в системах для идентификации отверстий, трещин или отложений, возникающих во время литья или сборки. ResNet-50 отлично подходит для этих задач, поскольку способен замечать тонкие различия в текстуре поверхности, что является важным навыком для контроля качества.

Хотя более продвинутые модели, такие как YOLO11, сейчас повсеместно используются в производственных системах, ResNet-50 по-прежнему играет важную роль в академических исследованиях и бенчмаркинге, особенно для задач классификации изображений.

Инспекция дефектов поверхности с использованием ResNet-50

Fig 5. Инспекция поверхности с использованием ResNet-50.

Link to this sectionПреимущества и ограничения ResNet-50#

Вот некоторые преимущества ResNet-50:

  • Высокая базовая производительность: ResNet-50 обеспечивает солидную точность в широком спектре задач, что делает его надежным эталоном как в исследовательских, так и в прикладных проектах.
  • Хорошо задокументирован и широко изучен: Его архитектура понятна и тщательно описана, что облегчает поиск и устранение неисправностей, а также процесс обучения для разработчиков и исследователей.
  • Универсальность в разных доменах: От медицинской визуализации до производства — ResNet-50 успешно применяется для решения самых разнообразных реальных задач, доказывая свою гибкость.

В то же время, вот обзор некоторых ограничений ResNet-50:

  • Высокое потребление ресурсов: ResNet-50 требует больше памяти и вычислительных мощностей, чем легковесные модели, что может сделать его менее подходящим для мобильных устройств или систем реального времени.
  • Переобучение на малых datasets: Из-за своей глубины и сложности ResNet-50 может переобучаться при тренировке на ограниченных данных без использования надлежащих методов регуляризации.
  • Фиксированный размер входных данных: ResNet-50 обычно ожидает изображения определенного размера, например 224×224 пикселя, поэтому изображения часто приходится масштабировать или обрезать, что иногда приводит к потере важных деталей.

Link to this sectionОсновные выводы#

ResNet-50 доказал, что очень глубокие сети могут эффективно обучаться, сохраняя при этом высокую производительность в визуальных задачах. Его архитектура предложила четкий и практичный каркас для создания еще более глубоких моделей, работающих надежно.

После его выпуска исследователи развили эту концепцию, создав более глубокие версии, такие как ResNet-101 и ResNet-152. В целом, ResNet-50 — это ключевая модель, которая помогла сформировать то, как глубокое обучение используется в компьютерном зрении сегодня.

Присоединяйся к нашему растущему community! Изучи наш GitHub repository, чтобы узнать больше об AI. Готов начать свои проекты по компьютерному зрению? Ознакомься с нашими licensing options. Узнай об AI in agriculture и vision AI in healthcare, посетив наши страницы решений!

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.
Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.
Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.
Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.
Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.
Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.
Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения