Descubra cómo el problema del gradiente de desaparición afecta al aprendizaje profundo y explore soluciones eficaces como ReLU y las conexiones residuales utilizadas en Ultralytics .
El problema del gradiente desaparecido es un reto importante que se presenta durante el entrenamiento de redes neuronales artificiales profundas . Se produce cuando los gradientes —los valores que dictan cuánto deben cambiar los parámetros de la red— se vuelven increíblemente pequeños a medida que se propagan hacia atrás desde la capa de salida a las capas de entrada. Dado que estos gradientes son esenciales para actualizar los pesos del modelo, su desaparición significa que las primeras capas de la red dejan de aprender. Este fenómeno impide efectivamente que el modelo capture patrones complejos en los datos, lo que limita la profundidad y el rendimiento de las arquitecturas de aprendizaje profundo.
Para entender por qué ocurre esto, es útil examinar el proceso de retropropagación. Durante el entrenamiento, la red calcula el error entre su predicción y el objetivo real utilizando una función de pérdida. A continuación, este error se envía hacia atrás a través de las capas para ajustar los pesos. Este ajuste se basa en la regla de la cadena del cálculo, que implica multiplicar las derivadas de las funciones de activación capa por capa.
Si una red utiliza funciones de activación como la función sigmoide o la tangente hiperbólica (tanh), las derivadas suelen ser inferiores a 1. Cuando muchos de estos números pequeños se multiplican entre sí en una red profunda con docenas o cientos de capas, el resultado se aproxima a cero. Esto se puede visualizar como un juego de «teléfono» en el que se susurra un mensaje a lo largo de una larga fila de personas; cuando llega al principio de la fila, el mensaje se ha vuelto inaudible y la primera persona no sabe qué decir.
El campo de la IA ha desarrollado varias estrategias sólidas para mitigar los gradientes que desaparecen, lo que permite la creación de potentes modelos como Ultralytics .
Aunque se derivan del mismo mecanismo subyacente (multiplicación repetida), los gradientes que se desvanecen son distintos de los gradientes que explotan.
NaN (No es un número). Esto suele solucionarse mediante
recorte de gradiente.
Superar los gradientes de desaparición ha sido un requisito previo para el éxito de las aplicaciones modernas de IA.
Los marcos y modelos modernos abstraen muchas de estas complejidades. Cuando entrenas un modelo como YOLO26, la arquitectura incluye automáticamente componentes como la activación SiLU y la normalización por lotes para evitar que los gradientes desaparezcan.
from ultralytics import YOLO
# Load the YOLO26 model (latest generation, Jan 2026)
# This architecture includes residual connections and modern activations
# that inherently prevent vanishing gradients.
model = YOLO("yolo26n.pt")
# Train the model on a dataset
# The optimization process remains stable due to the robust architecture
results = model.train(data="coco8.yaml", epochs=10)