Softmax

Descubra cómo Softmax transforma puntuaciones en probabilidades para tareas de clasificación en IA, impulsando el reconocimiento de imágenes y el éxito en PNL.

Softmax es una función matemática que convierte un vector de puntuaciones brutas de valor real, a menudo denominadas logits, en un vector de probabilidades. En el contexto del aprendizaje automático, Softmax se utiliza principalmente como función de activación en la capa de salida de una red neuronal. Su función principal es transformar las puntuaciones finales de la red en una distribución de probabilidades significativa sobre múltiples clases mutuamente excluyentes. Las probabilidades resultantes suman uno, por lo que son fáciles de interpretar como la confianza del modelo en cada resultado posible.

Cómo funciona Softmax

Imagine una red neuronal que intenta decidir a qué categoría pertenece una imagen. La última capa de la red produce un conjunto de puntuaciones brutas para cada categoría. Una puntuación más alta sugiere que el modelo se inclina más hacia esa categoría, pero estas puntuaciones no están estandarizadas y puede ser difícil trabajar con ellas directamente.

La función Softmax toma estas puntuaciones y realiza dos pasos principales:

Aplica la función exponencial a cada puntuación. Esto hace que todos los valores sean positivos y exagera las diferencias entre ellos: las puntuaciones más altas se vuelven proporcionalmente mucho más grandes.
Normaliza estas puntuaciones exponenciadas dividiendo cada una de ellas por su suma. Este paso reduce la escala de los valores para que sumen 1,0, creando así una distribución de probabilidad.

El resultado final es una lista de probabilidades, en la que cada valor representa la probabilidad prevista por el modelo de que la entrada pertenezca a una clase específica. La clase con la probabilidad más alta se elige como predicción final.

Aplicaciones en IA y aprendizaje automático

Softmax es fundamental para cualquier modelo de aprendizaje profundo que realice una clasificación multiclase. Su capacidad para proporcionar un resultado claro y probabilístico lo hace inestimable en diversos dominios.

Image Classification: This is the most common use case. A Convolutional Neural Network (CNN) trained on a dataset like ImageNet will use Softmax in its final layer. For an image of a pet, the model might output probabilities like {Dog: 0.9, Cat: 0.08, Rabbit: 0.02}, clearly indicating its prediction. Models like Ultralytics YOLO use this for classification tasks.
Procesamiento del Lenguaje Natural (PLN): En el modelado del lenguaje, Softmax se utiliza para predecir la siguiente palabra de una secuencia. Un modelo como Transformer calculará una puntuación para cada palabra de su vocabulario y utilizará Softmax para convertir estas puntuaciones en probabilidades. Se trata de un componente esencial de los modelos lingüísticos extensos (LLM ) y permite aplicaciones que van desde la traducción automática a la generación de textos.
Análisis de imágenes médicas: Al analizar exploraciones médicas para clasificar diferentes tipos de tejidos o identificar patologías (por ejemplo, benignas, malignas o sanas), un modelo utilizará Softmax para asignar una probabilidad a cada diagnóstico, ayudando a los médicos a tomar decisiones más informadas.
Aprendizaje por refuerzo: En el aprendizaje por refuerzo basado en políticas, Softmax se puede utilizar para convertir los valores aprendidos de diferentes acciones en una política, que es una distribución de probabilidad sobre las posibles acciones que puede tomar un agente.

Softmax frente a otras funciones de activación

Es importante distinguir Softmax de otras funciones de activación comunes, ya que tienen propósitos diferentes.

Sigmoide: La función Sigmoide también produce valores entre 0 y 1, pero se utiliza para la clasificación binaria (una clase frente a otra) o la clasificación multietiqueta, en la que una entrada puede pertenecer a varias clases a la vez. Por ejemplo, una película podría clasificarse como "Comedia" y "Acción". En cambio, Softmax sirve para la clasificación multiclase, en la que las clases se excluyen mutuamente: un dígito escrito a mano debe ser un 7 o un 8, pero no ambos.
ReLU (Unidad lineal rectificada): ReLU y sus variantes, como Leaky ReLU y SiLU, se utilizan en las capas ocultas de una red neuronal. Su función principal es introducir no linealidad, lo que permite al modelo aprender patrones complejos en los datos. No producen probabilidades y no se utilizan como funciones de salida para la clasificación.
Tanh (tangente hiperbólica): Tanh aplasta los valores a un rango entre -1 y 1. Al igual que ReLU, se utiliza en capas ocultas, sobre todo en arquitecturas de redes neuronales recurrentes (RNN ) más antiguas. No es adecuado para producir resultados probabilísticos en tareas de clasificación.

Consideraciones prácticas

Aunque es potente, Softmax puede ser sensible a puntuaciones de entrada muy grandes, lo que a veces puede provocar inestabilidad numérica (desbordamiento o subdesbordamiento). Para solucionar este problema, los marcos de aprendizaje profundo modernos, como PyTorch y TensorFlow, implementan versiones numéricamente estables de Softmax entre bastidores.

Softmax casi siempre se combina con una función de pérdida específica denominada pérdida de entropía cruzada (o pérdida logarítmica) durante el entrenamiento del modelo. Esta combinación es muy eficaz para entrenar clasificadores multiclase. Comprender el comportamiento de Softmax es crucial para una formación e interpretación eficaz del modelo, que puede gestionarse y seguirse utilizando plataformas como Ultralytics HUB para agilizar los experimentos y los despliegues.

Softmax

Solución flexible de licencias empresariales para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Entrene modelos YOLO de forma sencilla con Ultralytics HUB

Cómo funciona Softmax

Aplicaciones en IA y aprendizaje automático

Softmax frente a otras funciones de activación

Consideraciones prácticas

Leer más en esta categoría

FastVLM: Apple presenta su nuevo modelo de lenguaje de visión rápida

Explicación del aprendizaje automático en bucle humano (HITL)

Automatización de la fabricación mediante IA de visión

Únase a la comunidad Ultralytics