¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

ReLU con Fugas

Descubra el poder de la activación ReLU con fugas para la IA y el ML. Resuelva el problema de la ReLU que se extingue y mejore el rendimiento del modelo en CV, PNL, GAN y mucho más.

La Unidad Lineal Rectificada con Fugas, o Leaky ReLU, es una función de activación utilizada en redes neuronales (NN) y es una mejora directa de la función Unidad Lineal Rectificada (ReLU) estándar. Fue diseñada para abordar el problema de la "ReLU moribunda", donde las neuronas pueden volverse inactivas y dejar de aprender durante el entrenamiento. Al introducir una pequeña pendiente distinta de cero para los valores de entrada negativos, Leaky ReLU asegura que las neuronas siempre tengan un gradiente, lo que permite un entrenamiento más estable y consistente en modelos de aprendizaje profundo (DL). Esta simple modificación ha demostrado ser eficaz en varias arquitecturas, ayudando a mejorar el rendimiento del modelo y la dinámica de entrenamiento.

¿Cómo soluciona Leaky ReLU el problema de la neurona moribunda?

La principal motivación detrás de Leaky ReLU es resolver el problema de la neurona moribunda. En una función ReLU estándar, cualquier entrada negativa a una neurona resulta en una salida de cero. Si una neurona recibe constantemente una entrada negativa, siempre dará como resultado cero. En consecuencia, el gradiente que fluye a través de esta neurona durante la retropropagación también será cero. Esto significa que los pesos de la neurona ya no se actualizan, y efectivamente deja de participar en el proceso de aprendizaje: "muere".

Leaky ReLU aborda esto permitiendo un gradiente pequeño y positivo cuando la unidad no está activa. En lugar de dar salida a cero para las entradas negativas, da salida a un valor multiplicado por una pequeña constante (la "fuga"). Esto asegura que la neurona nunca tenga un gradiente cero, lo que le permite recuperarse y seguir aprendiendo. Este enfoque se detalló por primera vez en el artículo sobre Evaluación empírica de activaciones rectificadas en redes convolucionales.

Aplicaciones en el mundo real

La capacidad de Leaky ReLU para promover un entrenamiento más estable la ha hecho valiosa en varios dominios de la inteligencia artificial (IA).

  • Redes Generativas Antagónicas (GANs): ReLU con fugas se utiliza con frecuencia en las redes discriminadoras de las Redes Generativas Antagónicas (GANs). Las GANs implican un delicado equilibrio entre un generador y un discriminador, y la desaparición de gradientes de ReLU estándar puede desestabilizar este entrenamiento. Como se explica en recursos como el blog para desarrolladores de Google sobre GANs, los gradientes consistentes y distintos de cero de ReLU con fugas ayudan a ambas redes a aprender de manera más efectiva, lo que lleva a la generación de datos sintéticos de mayor calidad.
  • Modelos de Detección de Objetos: Los primeros pero influyentes modelos de detección de objetos, incluyendo algunas versiones de YOLO, han empleado Leaky ReLU. En las redes neuronales convolucionales (CNNs) profundas, las neuronas moribundas pueden impedir que el modelo aprenda características cruciales. Leaky ReLU ayuda a asegurar que todas las neuronas permanezcan activas, mejorando la capacidad del modelo para detectar objetos a través de diversos conjuntos de datos como COCO. Si bien muchas arquitecturas modernas como Ultralytics YOLO11 ahora usan funciones más avanzadas, Leaky ReLU fue un componente clave en el establecimiento de sus fundamentos.

ReLU con fugas frente a otras funciones de activación

Leaky ReLU es una de las varias funciones de activación diseñadas para mejorar la ReLU original. Comprender su relación con otras ayuda a seleccionar la función adecuada para una tarea determinada.

  • ReLU: La diferencia clave es que ReLU está completamente inactiva para las entradas negativas, mientras que Leaky ReLU mantiene un gradiente pequeño y constante.
  • SiLU y GELU: Las funciones de activación más nuevas como SiLU (Sigmoid Linear Unit) y GELU (Gaussian Error Linear Unit) proporcionan curvas suaves y no monótonas que a veces pueden conducir a una mejor precisión. Estas se encuentran a menudo en modelos avanzados como los Transformers. Sin embargo, son computacionalmente más complejas que la simple operación lineal de Leaky ReLU. Una visión general detallada de las funciones de activación puede proporcionar más comparaciones.
  • ReLU Paramétrica (PReLU): PReLU es una variante donde el coeficiente de fuga se aprende durante el entrenamiento, convirtiéndose en un parámetro del modelo en lugar de una hiperparámetro fijo.

La elección óptima de la función de activación a menudo depende de la arquitectura específica, el conjunto de datos (como los disponibles en Ultralytics Datasets) y los resultados del ajuste de hiperparámetros. Leaky ReLU sigue siendo una opción sólida por su simplicidad, baja sobrecarga computacional y eficacia para prevenir la muerte neuronal.

Los principales marcos de aprendizaje profundo como PyTorch y TensorFlow proporcionan implementaciones sencillas, como se ve en su documentación oficial para LeakyReLU de PyTorch y LeakyReLU de TensorFlow. Esta accesibilidad permite a los desarrolladores experimentar e integrarlo fácilmente en sus modelos utilizando plataformas como Ultralytics HUB.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles