Sigmoide
Descubra el poder de la función sigmoide en la IA. ¡Aprenda cómo permite la no linealidad, ayuda a la clasificación binaria e impulsa los avances del ML!
La función sigmoidea es una función de activación
función de activación ampliamente utilizada en
del aprendizaje automático (ML) y
aprendizaje profundo (DL). Representada matemáticamente como
una función logística, se caracteriza por su
distintiva curva en forma de "S", conocida como curva sigmoidea. La función principal de la sigmoide es transformar cualquier
número de entrada de valor real en un valor comprendido entre 0 y 1. Esta propiedad de aplastamiento hace que sea excepcionalmente útil para los modelos que necesitan predecir valores reales.
útil para modelos que necesitan predecir
predecir probabilidades, ya que la salida puede
directamente como la probabilidad de que se produzca un evento específico. Al introducir la no linealidad en una
red neuronal (NN), la función sigmoidea permite
modelos aprender patrones de datos complejos que van más allá de la simple
regresión lineal.
Aplicaciones básicas en Inteligencia Artificial
La función sigmoidea desempeña un papel fundamental en tareas y arquitecturas de red específicas, sobre todo cuando las salidas
deben interpretarse como probabilidades independientes. Aunque otras funciones más recientes la han sustituido en las capas ocultas de las redes profundas, sigue siendo un estándar en las capas de salida de varias aplicaciones clave.
profundas, sigue siendo un estándar en las capas de salida para varias aplicaciones clave.
-
Clasificación binaria: En tareas en las que el objetivo es clasificar los datos de entrada en una de dos clases mutuamente excluyentes, como por ejemplo
determinar si un correo electrónico es "spam" o "no spam", la función Sigmoid es la opción ideal para la capa final.
capa final. Produce un único valor escalar entre 0 y 1, que representa la probabilidad de la clase positiva.
Por ejemplo, en el análisis de imágenes médicas, un modelo
modelo puede dar como resultado 0,95, lo que indica un 95% de confianza en que una anomalía detectada es maligna.
-
Clasificación multietiqueta: A diferencia de las tareas multiclase, en las que una entrada pertenece a una sola categoría, las tareas multietiqueta permiten que una entrada tenga
múltiples etiquetas simultáneamente. Por ejemplo, un modelo de
modelo de detección de objetos como
Ultralytics YOLO11 puede necesitar detect una
"persona", "bicicleta" y "casco" en una misma imagen. En este caso, Sigmoid se aplica
independientemente a cada nodo de salida, lo que permite al modelo predecir la presencia o ausencia de cada clase sin forzar la suma de las probabilidades a uno.
que las probabilidades sumen uno.
-
Red neuronal recurrente (RNN)
Compuerta: Sigmoid es un componente crucial en los mecanismos de compuerta de modelos de secuencia avanzados como
memoria a largo plazo (LSTM)
(LSTM). En estas arquitecturas, las "compuertas de olvido" y las "compuertas de entrada" utilizan Sigmoid para dar salida a valores entre 0 (olvido/bloqueo total) y 0 (bloqueo total).
valores entre 0 (olvido total/bloqueo) y 1 (recuerdo total/paso), lo que regula eficazmente el flujo de
información a lo largo del tiempo. Este mecanismo se explica en profundidad en
sobre las LSTM.
Comparación con funciones de activación relacionadas
Para diseñar eficazmente arquitecturas neuronales, es importante distinguir la Sigmoide de otras funciones de activación, ya que
cada una tiene un propósito distinto.
-
Softmax: Aunque ambas funciones se refieren a la probabilidad, Softmax se utiliza para la clasificación multiclase en la que las clases son
son mutuamente excluyentes. Softmax garantiza que los resultados de todas las clases sumen exactamente 1, creando una distribución de probabilidad.
probabilidad. Por el contrario, Sigmoid trata cada salida de forma independiente, lo que la hace adecuada para tareas binarias o multietiqueta.
etiquetas.
-
ReLU (Unidad lineal rectificada): ReLU es la función de activación preferida para las capas ocultas de las redes profundas modernas. A diferencia de la Sigmoide, que
satura en 0 y 1 causando el
gradiente de fuga durante la
durante la retropropagación, ReLU permite que los gradientes fluyan
gradientes fluyan más libremente para entradas positivas. Esto acelera el entrenamiento y la convergencia, como se señala en
notas del curso CS231n de Stanford.
-
Tanh (Tangente hiperbólica): La función Tanh es similar a Sigmoid, pero asigna las entradas a un intervalo de -1 a 1. Dado que su salida está centrada en cero, a menudo se prefiere Tanh a Sigmoid en las capas ocultas de arquitecturas más antiguas y en determinadas RNN.
centrada en cero, a menudo se prefiere Tanh a Sigmoid en las capas ocultas de arquitecturas más antiguas y ciertas RNN, ya que ayuda a centrar los datos para las capas posteriores.
ayuda a centrar los datos en las capas siguientes.
Ejemplo de aplicación
El siguiente fragmento de Python muestra cómo aplicar la función sigmoide utilizando
PyTorch. Se trata de una operación común
utilizada para convertir los resultados brutos del modelo (logits) en probabilidades interpretables.
import torch
import torch.nn as nn
# Raw outputs (logits) from a model for a binary or multi-label task
logits = torch.tensor([0.1, -2.5, 4.0])
# Apply the Sigmoid activation function
sigmoid = nn.Sigmoid()
probabilities = sigmoid(logits)
# Output values are squashed between 0 and 1
print(probabilities)
# Output: tensor([0.5250, 0.0759, 0.9820])
Saber cuándo utilizar Sigmoid es clave para crear sistemas de IA eficaces. Aunque tiene limitaciones en capas
ocultas profundas debido a la saturación del gradiente, su capacidad para modelar probabilidades independientes lo mantiene
cálculos de funciones de pérdida y capas finales de salida
para una amplia variedad de tareas.