Saiba como o problema do gradiente de desaparecimento afeta o aprendizado profundo e explore soluções eficazes, como ReLU e conexões residuais, usadas no Ultralytics .
O problema do gradiente desaparecido é um desafio significativo encontrado durante o treino de redes neurais artificiais profundas . Ele ocorre quando os gradientes — os valores que determinam o quanto os parâmetros da rede devem mudar — tornam-se incrivelmente pequenos à medida que se propagam para trás, da camada de saída para as camadas de entrada. Como esses gradientes são essenciais para atualizar os pesos do modelo, o seu desaparecimento significa que as camadas anteriores da rede param de aprender. Este fenómeno impede efetivamente que o modelo capture padrões complexos nos dados, limitando a profundidade e o desempenho das arquiteturas de aprendizagem profunda.
Para entender por que isso acontece, é útil observar o processo de retropropagação. Durante o treinamento, a rede calcula o erro entre a sua previsão e o alvo real usando uma função de perda. Esse erro é então enviado de volta através das camadas para ajustar os pesos. Esse ajuste depende da regra da cadeia do cálculo, que envolve multiplicar as derivadas das funções de ativação camada por camada.
Se uma rede usa funções de ativação como a função sigmoide ou a tangente hiperbólica (tanh), as derivadas são frequentemente menores que 1. Quando muitos desses números pequenos são multiplicados juntos numa rede profunda com dezenas ou centenas de camadas, o resultado aproxima-se de zero. Você pode visualizar isso como um jogo de "telefone sem fio" em que uma mensagem é sussurrada por uma longa fila de pessoas; quando chega ao início da fila, a mensagem se tornou inaudível e a primeira pessoa não sabe o que dizer.
O campo da IA desenvolveu várias estratégias robustas para mitigar gradientes de desaparecimento, permitindo a criação de modelos poderosos como Ultralytics .
Embora tenham origem no mesmo mecanismo subjacente (multiplicação repetida), os gradientes de desaparecimento são distintos dos gradientes de explosão.
NaN (Não é um número). Isso geralmente é corrigido por
recorte de gradiente.
Superar os gradientes de desaparecimento tem sido um pré-requisito para o sucesso das aplicações modernas de IA.
As estruturas e modelos modernos abstraem muitas dessas complexidades. Quando você treina um modelo como o YOLO26, a arquitetura inclui automaticamente componentes como ativação SiLU e normalização em lote para evitar que os gradientes desapareçam.
from ultralytics import YOLO
# Load the YOLO26 model (latest generation, Jan 2026)
# This architecture includes residual connections and modern activations
# that inherently prevent vanishing gradients.
model = YOLO("yolo26n.pt")
# Train the model on a dataset
# The optimization process remains stable due to the robust architecture
results = model.train(data="coco8.yaml", epochs=10)