¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

SiLU (Unidad Lineal Sigmoide)

Descubra cómo la función de activación SiLU (Swish) aumenta el rendimiento del aprendizaje profundo en tareas de IA como la detección de objetos y el PNL.

La Unidad Lineal Sigmoide, comúnmente conocida como SiLU, es una función de activación utilizada en redes neuronales que ha ganado popularidad por su eficiencia y rendimiento. Es una función auto-regulada que combina elegantemente las propiedades de las funciones Sigmoide y Unidad Lineal Rectificada (ReLU). SiLU se introdujo en el artículo "Searching for Activation Functions", donde originalmente se llamaba Swish. Sus propiedades únicas, como la suavidad y la no monotonicidad, le permiten superar a menudo a las funciones de activación tradicionales como ReLU en modelos profundos, lo que lleva a una mejor precisión y una convergencia más rápida durante el entrenamiento del modelo.

Cómo funciona SiLU

SiLU se define multiplicando un valor de entrada por su sigmoide. Este mecanismo de auto-regulación permite que la función haga una transición suave de ser lineal para entradas positivas a casi cero para entradas negativas grandes, lo que ayuda a regular el flujo de información a través de la red. Una característica clave de SiLU es su no monotonicidad; puede caer ligeramente por debajo de cero para pequeñas entradas negativas antes de volver a subir hacia cero. Se cree que esta propiedad mejora el poder expresivo de la red neuronal al crear un panorama de gradiente más rico y prevenir el problema de la desaparición del gradiente que puede ralentizar o detener el proceso de aprendizaje en arquitecturas profundas. La suavidad de la curva SiLU es también una ventaja significativa, ya que asegura un gradiente suave para algoritmos de optimización como el descenso de gradiente.

SiLU en comparación con otras funciones de activación

SiLU ofrece varias ventajas sobre otras funciones de activación comúnmente utilizadas, lo que la convierte en una opción atractiva para las arquitecturas modernas de deep learning (DL).

  • ReLU (Unidad Lineal Rectificada): A diferencia de ReLU, que tiene un cambio abrupto en cero y un gradiente cero constante para todas las entradas negativas, SiLU es una función suave y continua. Esta suavidad ayuda durante el proceso de retropropagación (backpropagation). Además, SiLU evita el problema de la "ReLU moribunda", donde las neuronas pueden volverse permanentemente inactivas si reciben constantemente entradas negativas.
  • ReLU con fuga (Leaky ReLU): Si bien Leaky ReLU también aborda el problema de la neurona "moribunda" al permitir un gradiente pequeño, no nulo, para las entradas negativas, la curva suave y no monotónica de SiLU a veces puede conducir a una mejor generalización y optimización en redes profundas.
  • Sigmoide (Sigmoid): La función sigmoide es un componente central de SiLU, pero sus aplicaciones difieren significativamente. La sigmoide se utiliza normalmente en la capa de salida para tareas de clasificación binaria o como mecanismo de compuerta en las RNN. En cambio, SiLU está diseñada para capas ocultas y se ha demostrado que mejora el rendimiento en las redes neuronales convolucionales (CNN).
  • GELU (Unidad lineal gaussiana de error): SiLU se compara a menudo con GELU, otra función de activación suave que ha demostrado un excelente rendimiento, particularmente en modelos Transformer. Ambas funciones tienen formas y características de rendimiento similares, y la elección entre ellas a menudo se reduce a los resultados empíricos del ajuste de hiperparámetros.

Aplicaciones en IA y Machine Learning

El equilibrio entre eficiencia y rendimiento ha convertido a SiLU en una opción popular en varios modelos de última generación.

  • Detección de Objetos: Los modelos avanzados de detección de objetos, incluyendo versiones de Ultralytics YOLO, emplean SiLU en sus capas ocultas. Por ejemplo, en aplicaciones como vehículos autónomos que dependen de la detección en tiempo real, SiLU ayuda al modelo a aprender características complejas de los datos de los sensores de manera más efectiva, mejorando la precisión de la detección de peatones, señales de tráfico y otros vehículos. Este aprendizaje mejorado de características es crítico para la seguridad y la fiabilidad, especialmente cuando se entrena con conjuntos de datos a gran escala como COCO.
  • Clasificación de Imágenes: SiLU es un componente clave en modelos de clasificación eficientes y potentes, como la familia de modelos EfficientNet. En campos como el análisis de imágenes médicas, la capacidad de SiLU para preservar el flujo de gradiente ayuda a los modelos a aprender texturas y patrones sutiles. Esto es beneficioso para tareas como la clasificación de tumores a partir de resonancias magnéticas o la identificación de enfermedades a partir de radiografías de tórax, donde la alta precisión es primordial.

Implementación

SiLU está disponible en los principales frameworks de deep learning, lo que facilita su incorporación en modelos nuevos o existentes.

Plataformas como Ultralytics HUB admiten el entrenamiento de modelos y la exploración de diversas opciones de implementación para modelos que utilizan componentes avanzados como SiLU. La investigación continua y los recursos de organizaciones como DeepLearning.AI ayudan a los profesionales a aprovechar estas funciones de forma eficaz. La elección de una función de activación sigue siendo una parte fundamental del diseño de arquitecturas de redes neuronales eficaces, y SiLU representa un importante paso adelante en este campo.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles