Глоссарий

Исчезающий градиент

Узнайте о проблеме исчезающего градиента в глубоком обучении, ее влиянии на нейронные сети, а также об эффективных решениях, таких как ReLU, ResNets и др.

Проблема исчезающего градиента - распространенная проблема, возникающая при обучении глубоких нейронных сетей. Она возникает, когда градиенты, которые являются сигналами, используемыми для обновления весов сети посредством обратного распространения, становятся чрезвычайно малыми по мере того, как они распространяются от выходного слоя обратно к начальным слоям. Когда эти градиенты приближаются к нулю, веса начальных слоев обновляются неэффективно или вообще не обновляются. Это, по сути, останавливает процесс обучения для этих слоев, не позволяя модели глубокого обучения сходиться к оптимальному решению и обучаться на основе данных.

Что вызывает исчезновение градиентов?

Основная причина исчезающих градиентов кроется в природе некоторых функций активации и глубине самой сети.

  • Функции активации: Традиционные функции активации, такие как сигмоид и гиперболический тангенс (tanh), сжимают свои входные данные в очень маленький диапазон выходных. Производные этих функций малы. В процессе обратного распространения эти маленькие производные умножаются на множество слоев. Чем больше слоев у сети, тем больше перемножаются эти маленькие числа, что приводит к экспоненциальному уменьшению конечного градиента по направлению к нулю.
  • Глубокие архитектуры: Эта проблема особенно ярко проявляется в очень глубоких сетях, включая ранние рекуррентные нейронные сети (РНС), где градиенты распространяются назад через множество временных шагов. Каждый шаг включает в себя умножение, которое может уменьшить сигнал градиента в длинных последовательностях.

Исчезающие градиенты против взрывающихся градиентов

Исчезающие градиенты - это противоположность взрывающимся градиентам. Обе проблемы связаны с течением градиентов во время обучения, но имеют разные последствия:

  • Исчезающие градиенты: Градиенты уменьшаются экспоненциально, пока не становятся слишком маленькими, чтобы способствовать осмысленному обучению на ранних слоях сети.
  • Взрывающиеся градиенты: Градиенты неконтролируемо увеличиваются, что приводит к огромным обновлениям веса, из-за чего модель становится нестабильной и не сходится.

Решение обеих проблем имеет решающее значение для успешного обучения глубоких и мощных моделей ИИ.

Решения и стратегии смягчения последствий

Для борьбы с проблемой исчезающего градиента было разработано несколько методов:

  • Лучшие функции активации: Замена сигмоида и тангенса на функции типа выпрямленного линейного блока (ReLU) или его разновидностей(Leaky ReLU, GELU) является распространенным решением. Производная ReLU равна 1 для положительных входов, что предотвращает уменьшение градиента.
  • Передовые архитектуры: Архитектуры были разработаны специально для решения этой проблемы. Остаточные сети (ResNets) вводят "пропускные соединения", которые позволяют градиенту обходить слои, обеспечивая более короткий путь при обратном распространении. Для последовательных данных сети с длинной кратковременной памятью (LSTM) и рекуррентными блоками с регулировкой (GRU) используют механизмы регулировки для управления потоком информации и градиентов, как подробно описано в оригинальной статье о LSTM и GRU.
  • Инициализация весов: Правильная инициализация весов сети с помощью таких методов, как инициализация He или Xavier, может помочь обеспечить начало градиентов в разумных пределах. Более подробную информацию об этом можно найти в обсуждениях лучших практик глубокого обучения.
  • Пакетная нормализация: Применение пакетной нормализации помогает нормализовать входы каждого слоя, что стабилизирует сеть и уменьшает зависимость от инициализации, тем самым уменьшая проблему исчезающего градиента.

Влияние на реальный мир и примеры

Преодоление исчезающих градиентов стало важнейшим прорывом для современного ИИ.

  1. Обработка естественного языка (NLP): Ранние RNN не справлялись с такими задачами, как машинный перевод и анализ длинных смыслов, поскольку не могли запомнить информацию из начала длинного предложения. Изобретение LSTM и GRU позволило моделям улавливать эти дальние зависимости. Современные архитектуры, такие как Transformer, используют самовнимание, чтобы полностью обойти проблему последовательного градиента, что позволяет достичь высочайшей производительности.
  2. Компьютерное зрение: Когда-то считалось, что простое углубление конволюционных нейронных сетей (CNN) не приведет к улучшению производительности из-за трудностей обучения, таких как исчезающие градиенты. Появление архитектур ResNet доказало, что это не так, и позволило создавать сети с сотнями слоев. Это привело к значительным достижениям в классификации изображений, сегментации изображений и обнаружении объектов, что стало основой для таких моделей, как Ultralytics YOLO. Для обучения этих моделей часто используются большие наборы данных компьютерного зрения, и управлять ими можно с помощью таких платформ, как Ultralytics HUB.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена