Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Исчезающий градиент

Узнайте о проблеме исчезающего градиента в глубоком обучении, ее влиянии на нейронные сети и эффективных решениях, таких как ReLU, ResNets и другие.

The Vanishing Gradient problem is a significant challenge encountered during the training of deep artificial neural networks. It occurs when the gradients—the values that dictate how much the network's parameters should change—become incredibly small as they propagate backward from the output layer to the input layers. Because these gradients are essential for updating the model weights, their disappearance means the earlier layers of the network stop learning. This phenomenon effectively prevents the model from capturing complex patterns in the data, limiting the depth and performance of deep learning architectures.

The Mechanics of Disappearing Signals

To understand why this happens, it is helpful to look at the process of backpropagation. During training, the network calculates the error between its prediction and the actual target using a loss function. This error is then sent backward through the layers to adjust the weights. This adjustment relies on the chain rule of calculus, which involves multiplying the derivatives of activation functions layer by layer.

If a network uses activation functions like the sigmoid function or the hyperbolic tangent (tanh), the derivatives are often less than 1. When many of these small numbers are multiplied together in a deep network with dozens or hundreds of layers, the result approaches zero. You can visualize this like a game of "telephone" where a message is whispered down a long line of people; by the time it reaches the start of the line, the message has become inaudible, and the first person doesn't know what to say.

Решения и современные архитектуры

В области ИИ было разработано несколько надежных стратегий для смягчения исчезающих градиентов, что позволило создать мощные модели, такие как Ultralytics .

  • ReLU и варианты: Выпрямленная линейная функция (ReLU) и ее преемники, такие как Leaky ReLU и SiLU, не насыщаются для положительных значений. Их производные равны либо 1, либо небольшой константе, сохраняя величину градиента через глубокие слои.
  • Остаточные соединения: введенные в остаточных сетях (ResNets), это «пропускные соединения», которые позволяют градиенту обходить один или несколько слоев. Это создает «супермагистраль» для беспрепятственного прохождения градиента к более ранним слоям, что является важной концепцией для современного обнаружения объектов.
  • Пакетная нормализация: путем нормализации входных данных каждого слоя пакетная нормализация обеспечивает стабильную работу сети, в которой производные не слишком малы, что снижает зависимость от тщательной инициализации.
  • Архитектуры с воротами: для последовательных данных сети с длинной краткосрочной памятью (LSTM) и GRU используют специальные ворота, чтобы решить, сколько информации сохранить или забыть, эффективно защищая градиент от исчезновения в длинных последовательностях.

Исчезающие и взрывные градиенты

Хотя они происходят из одного и того же базового механизма (повторяющееся умножение), исчезающие градиенты отличаются от взрывающихся градиентов.

  • Исчезающий градиент: градиенты приближаются к нулю, что приводит к остановке обучения. Это часто встречается в глубоких сетях с сигмоидными активациями.
  • Взрывной градиент: Градиенты накапливаются и становятся чрезмерно большими, вызывая веса модели сильно колебаться или достигать NaN (Не число). Часто это исправляется с помощью отрезку градиента.

Применение в реальном мире

Преодоление исчезающих градиентов стало необходимым условием для успеха современных приложений искусственного интеллекта.

  1. Deep Object Detection: Models used for autonomous vehicles, such as the YOLO series, require hundreds of layers to differentiate between pedestrians, signs, and vehicles. Without solutions like residual blocks and batch normalization, training these deep networks on massive datasets like COCO would be impossible. Tools like the Ultralytics Platform help streamline this training process, ensuring these complex architectures converge correctly.
  2. Machine Translation: In Natural Language Processing (NLP), translating a long sentence requires understanding the relationship between the first and last words. Solving the vanishing gradient problem in RNNs (via LSTMs) and later Transformers allowed models to maintain context over long paragraphs, revolutionizing machine translation services like Google Translate.

Python

Современные фреймворки и модели абстрагируют многие из этих сложностей. При обучении модели, такой как YOLO26, архитектура автоматически включает такие компоненты, как активация SiLU и нормализация партий, чтобы предотвратить исчезновение градиентов .

from ultralytics import YOLO

# Load the YOLO26 model (latest generation, Jan 2026)
# This architecture includes residual connections and modern activations
# that inherently prevent vanishing gradients.
model = YOLO("yolo26n.pt")

# Train the model on a dataset
# The optimization process remains stable due to the robust architecture
results = model.train(data="coco8.yaml", epochs=10)

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас