Узнайте, как проблема исчезающего градиента влияет на глубокое обучение, и изучите эффективные решения, такие как ReLU и остаточные соединения, используемые в Ultralytics .
Проблема исчезающего градиента — это серьезная проблема, с которой сталкиваются при обучении глубоких искусственных нейронных сетей. Она возникает, когда градиенты — значения, определяющие, насколько должны изменяться параметры сети — становятся невероятно малыми при обратном распространении от выходного слоя к входным слоям. Поскольку эти градиенты необходимы для обновления весов модели, их исчезновение означает, что более ранние слои сети перестают учиться. Это явление фактически мешает модели улавливать сложные закономерности в данных, ограничивая глубину и производительность архитектур глубокого обучения.
Чтобы понять, почему это происходит, полезно рассмотреть процесс обратного распространения. Во время обучения сеть вычисляет ошибку между своим прогнозом и фактической целью с помощью функции потерь. Затем эта ошибка отправляется назад через слои для корректировки весов. Эта корректировка основана на правиле цепочки в математическом анализе, которое предполагает умножение производных функций активации слой за слоем.
Если сеть использует функции активации, такие как сигмоидная функция или гиперболическая тангенс (tanh), производные часто меньше 1. Когда многие из этих небольших чисел умножаются друг на друга в глубокой сети с десятками или сотнями слоев, результат приближается к нулю. Это можно представить как игру в «телефон», когда сообщение шепчут по длинной цепочке людей; к тому времени, когда оно доходит до начала цепочки, сообщение становится неразборчивым, и первый человек не знает, что сказать.
В области ИИ было разработано несколько надежных стратегий для смягчения исчезающих градиентов, что позволило создать мощные модели, такие как Ultralytics .
Хотя они происходят из одного и того же базового механизма (повторяющееся умножение), исчезающие градиенты отличаются от взрывающихся градиентов.
NaN (Не число). Часто это исправляется с помощью
отрезку градиента.
Преодоление исчезающих градиентов стало необходимым условием для успеха современных приложений искусственного интеллекта.
Современные фреймворки и модели абстрагируют многие из этих сложностей. При обучении модели, такой как YOLO26, архитектура автоматически включает такие компоненты, как активация SiLU и нормализация партий, чтобы предотвратить исчезновение градиентов .
from ultralytics import YOLO
# Load the YOLO26 model (latest generation, Jan 2026)
# This architecture includes residual connections and modern activations
# that inherently prevent vanishing gradients.
model = YOLO("yolo26n.pt")
# Train the model on a dataset
# The optimization process remains stable due to the robust architecture
results = model.train(data="coco8.yaml", epochs=10)