Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Остаточные сети (ResNet)

Узнайте, как ResNet произвели революцию в глубоком обучении, решив проблему исчезающих градиентов, что позволило использовать сверхглубокие сети для анализа изображений, NLP и многого другого.

Остаточные сети, широко известные как ResNets, представляют собой важнейшее достижение в области искусственного интеллекта (ИИ) и компьютерного зрения (КВ). Представленная в 2015 году исследователями из Microsoft Research, эта архитектура позволила решить значительную проблему в глубокого обучения (ГО), известной как проблема исчезающего градиента. До появления ResNet, увеличение глубины нейронной сети (НС) часто приводило к уменьшению отдачи, когда добавление новых слоев фактически увеличивало ошибки обучения. ResNet решила эту проблему, введя "пропуск соединений", что позволило успешно обучать сети с сотнями и даже тысячами слоев, сохраняя при этом высокую точность.

Инновационное ядро: Остаточные блоки

Определяющей характеристикой сети ResNet является остаточный блок. В традиционной Конволюционная нейронная сеть (CNN), слои укладываются последовательно, и каждый слой пытается выучить отображение от входов к выходам напрямую. Однако по мере углубления сети сигнал от входных данных может ухудшаться, не доходя до конца сети.

ResNet вводит "короткое" или пропускное соединение, которое позволяет добавить вход слоя непосредственно к его выходу. его выходу. Этот механизм, по сути, говорит сети, что нужно выучить "остаток" (разницу) между между входом и оптимальным выходом, а не обучать все преобразования с нуля. Такая архитектура сохраняет информационный поток и способствует лучшему извлечение признаков, позволяя модели улавливать сложные паттерны, такие как текстуры и формы, без потери исходных входных данных. Вы можете ознакомиться с оригиналом Deep Residual Learning for Image Recognition, чтобы понять математическую основу.

Почему ResNet имеет значение для машинного обучения

ResNet считается основополагающей базой для многих современных систем технического зрения. Его способность обучать очень глубокие сети позволяет создавать высоконадежные модели, которые которые могут хорошо работать с такими масштабными наборами данных, как ImageNet.

Эта архитектура особенно важна для трансферного обучения. Поскольку предварительно обученные модели ResNet модели изучают богатые карты признаков на огромных объемов данных, они могут быть точно настроены для решения конкретных задач с помощью относительно небольших наборов данных. Такая универсальность делает ResNet стандартным выбором для решения самых разных задач - от классификации изображений до сложного анализа видео анализа.

Применение в реальном мире

Стабильность и глубина, обеспечиваемые ResNet, позволяют использовать ее в критических ситуациях с высокими ставками.

  • Медицинская диагностика: В области ИИ в здравоохранении, архитектуры ResNet часто используются для анализа медицинских изображений. Например, исследователи используют глубокие модели ResNet для анализа снимков МРТ или рентгеновских снимков с целью обнаружения опухолей, При этом модель должна выявлять мельчайшие аномалии в тканевых структурах, которые могут быть пропущены более мелкими сетями.
  • Автономное вождение: Автономные автомобили полагаются на системы восприятия в реальном времени системы восприятия для безопасной навигации. Варианты ResNet часто служат в качестве экстрактора признаков для систем обнаружения объектов, которые идентифицируют пешеходов, дорожных знаков и других транспортных средств. Глубина сети гарантирует, что автомобиль сможет распознавать объекты при различном освещении и погодных условиях, что является ключевым компонентом ИИ в автомобильной безопасности.

ResNet в сравнении с другими архитектурами

Полезно отличать ResNet от других распространенных архитектур, встречающихся в библиотеках глубокого обучения, таких как PyTorch или TensorFlow:

  • ResNet против VGG: сети VGG (Visual Geometry Group) были популярны благодаря своей простоте, используя только 3x3 свертки. Однако модели VGG требуют больших вычислительных затрат и с трудом поддаются эффективному обучению после 19 слоев. ResNet использует пропускные соединения, что позволяет проникать гораздо глубже (например, 50, 101 или 152 слоя) с меньшей задержкой вывода относительно их глубины.
  • ResNet против YOLO11: В то время как ResNet в первую очередь является основой классификатора, YOLO11 является самым современным детектором объектов. Однако, современные детекторы, такие как YOLO11 , используют архитектурные концепции, развитые в ResNet, такие как кросс-стадийные частичные соединения, чтобы обеспечить эффективный градиентный поток во время обучения.

Реализация с помощью Ultralytics

Вы можете легко использовать модели ResNet для задач классификации, используя ultralytics Пакет Python . Этот позволяет получить доступ к предварительно обученным весам и выполнить вывод с минимальным количеством кода.

from ultralytics import YOLO

# Load a pre-trained ResNet50 model capable of classifying images
model = YOLO("resnet50.pt")  # Downloads the model weights automatically

# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")

# Display the top classification result
print(f"Top class: {results[0].names[results[0].probs.top1]}")

Для тех, кто заинтересован в более глубоком понимании теории, такие курсы, как CS231n в Стэнфорде, предоставляют отличные академические ресурсы по архитектуре CNN. Независимо от того, создаете ли вы простой классификатор или сложную систему для интеллектуального производства, понимание ResNet необходимо для освоения современного компьютерного зрения.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас