Glosario

Sigmoide

Descubra el poder de la función sigmoidea en la IA. Descubra cómo permite la no linealidad, ayuda a la clasificación binaria e impulsa los avances en ML.

La función sigmoidea es una función de activación muy utilizada en el aprendizaje automático (ML) y el aprendizaje profundo (DL). Es una función matemática que produce una curva característica en forma de "S" o sigmoidal. Su propósito principal es tomar cualquier número de valor real y "aplastarlo" en un rango entre 0 y 1. Esta salida se interpreta a menudo como una probabilidad, por lo que Sigmoid es especialmente útil en modelos donde el objetivo es predecir la probabilidad de un resultado. Al introducir la no linealidad en una red neuronal (NN), permite al modelo aprender patrones complejos a partir de datos que, de otro modo, serían imposibles con simples transformaciones lineales.

Función y aplicaciones

La capacidad de la función sigmoidea para asignar entradas a una salida similar a la probabilidad la convierte en una piedra angular para determinados tipos de tareas. Aunque se ha vuelto menos común en las capas ocultas de las redes neuronales profundas modernas, sigue siendo una opción estándar para la capa de salida en escenarios específicos.

Aplicaciones clave

  • Clasificación binaria: En los problemas de clasificación binaria, el objetivo es clasificar una entrada en una de dos clases (por ejemplo, spam o no spam, enfermedad presente o ausente). Una función sigmoidea en la capa de salida proporciona un único valor entre 0 y 1, que representa la probabilidad de que la entrada pertenezca a la clase positiva. Por ejemplo, un modelo de análisis de imágenes médicas puede utilizar la función Sigmoid para obtener una probabilidad de 0,9, lo que indica un 90% de probabilidades de que un tumor sea maligno.
  • Clasificación multietiqueta: A diferencia de la clasificación multiclase, en la que una entrada pertenece a una sola clase, las tareas multietiqueta permiten asociar una entrada a varias etiquetas simultáneamente. Por ejemplo, un modelo de detección de objetos como Ultralytics YOLO puede analizar una imagen e identificar un "coche", un "peatón" y un "semáforo" a la vez. En este caso, se aplica una función sigmoidea a cada neurona de salida de forma independiente, lo que proporciona la probabilidad de cada etiqueta posible. Puede obtener más información sobre la evolución de la detección de objetos.
  • Mecanismos de compuerta en las RNN: Las funciones sigmoidales son un componente esencial de los mecanismos de compuerta de las redes neuronales recurrentes (RNN), como la memoria a largo plazo (LSTM) y las unidades recurrentes con compuerta (GRU). Estas puertas utilizan Sigmoid para controlar el flujo de información, decidiendo qué datos conservar o descartar en cada paso. Este mecanismo es crucial para el aprendizaje de dependencias a largo plazo en datos secuenciales, como se explica en esta detallada entrada del blog sobre la comprensión de las LSTM.

Comparación con otras funciones de activación

Es importante distinguir la función sigmoidea de otras funciones de activación para entender cuándo utilizarla.

  • Softmax: La función Softmax se utiliza normalmente para problemas de clasificación multiclase, en los que cada entrada pertenece exactamente a una de varias clases posibles. A diferencia de Sigmoid, que calcula probabilidades independientes para cada salida, Softmax calcula una distribución de probabilidad entre todas las clases que suma 1. Por ejemplo, un modelo de clasificación de dígitos manuscritos del conjunto de datos MNIST utilizaría Softmax para asignar una única probabilidad a cada dígito de 0 a 9.
  • ReLU (Unidad lineal rectificada): ReLU se ha convertido en el estándar de facto para las capas ocultas de las redes profundas. Es computacionalmente más eficiente y ayuda a mitigar el problema del gradiente evanescente, un problema importante con Sigmoid, donde los gradientes se vuelven extremadamente pequeños durante la retropropagación, lo que ralentiza o detiene el proceso de aprendizaje. Puedes leer más sobre los retos de los gradientes en este artículo de DeepLearning.AI.
  • SiLU (Unidad lineal sigmoidea): También conocida como Swish, SiLU es una función de activación más moderna derivada de Sigmoid. A menudo funciona mejor que ReLU en modelos más profundos, incluidas las arquitecturas avanzadas de visión por ordenador. Los modelos Ultralytics suelen aprovechar las funciones de activación avanzadas para lograr un mejor equilibrio entre velocidad y precisión.

Uso moderno y disponibilidad

Aunque hoy en día es menos común en las capas ocultas, la sigmoidea sigue siendo una opción estándar para las capas de salida en tareas de clasificación binarias y multietiqueta. También es un componente básico de los mecanismos de compuerta en arquitecturas complejas que manejan datos secuenciales.

Sigmoid está disponible en las principales marcos de aprendizaje profundoincluyendo PyTorch (como torch.sigmoid) y TensorFlow (como tf.keras.activations.sigmoid). Plataformas como HUB de Ultralytics modelos de apoyo que utilizan diversas funciones de activación, lo que permite a los usuarios tren y despliegue sofisticadas soluciones de visión por ordenador.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles