Glosario

Tanh (Tangente Hiperbólica)

Descubra el poder de la función de activación Tanh en las redes neuronales. ¡Aprenda cómo permite a la IA modelar datos complejos con una eficiencia centrada en cero!

Tanh (tangente hiperbólica) es una función de activación función de activación en el campo del aprendizaje profundo que introduce la no linealidad en las redes neuronales. Matemáticamente, aplasta valores de entrada a un rango específico entre -1 y 1. Esta curva en forma de "S" es similar a la función función sigmoidea, pero ofrece claras ventajas debido a su salida centrada en cero. salida centrada en cero. Al asignar entradas negativas a salidas fuertemente negativas y entradas positivas a salidas fuertemente positivas, Tanh ayuda a modelar salidas complejas. positivas a salidas fuertemente positivas, Tanh ayuda a modelar patrones complejos regresión lineal, lo que la convierte en un en la historia de la de la inteligencia artificial.

Cómo funciona Tanh

La función principal de Tanh es determinar la salida de una neurona en función de sus entradas ponderadas. Transforma cualquier entrada de valor real en un rango acotado de [-1, 1]. Esta propiedad se conoce como "centrado en cero". media de los valores de salida está más cerca de cero en comparación con funciones como la sigmoidea, que produce valores entre 0 y 1. 1.

Los datos centrados en cero son cruciales para la eficacia de algoritmos de optimización como descenso de gradiente estocástico (SGD). Durante la retropropagación, las activaciones centradas en cero permiten que los gradientes se muevan en direcciones positivas o negativas con mayor libertad, evitando el comportamiento de "zig-zag" en las actualizaciones de los pesos, que puede ralentizar el proceso. que puede ralentizar el entrenamiento del modelo. Para profundizar en esta dinámica, los apuntes de CS231n de la Universidad de Stanford ofrecen una un excelente resumen técnico.

La función Tanh está fácilmente disponible en los frameworks modernos. A continuación se muestra un ejemplo ejecutable utilizando PyTorch para demostrar cómo se en el rango [-1, 1].

import torch
import torch.nn as nn

# Initialize the Tanh activation function
tanh = nn.Tanh()

# Create a sample tensor with negative, zero, and positive values
input_data = torch.tensor([-2.0, -0.5, 0.0, 0.5, 2.0])

# Apply Tanh: Values are squashed between -1 and 1
output = tanh(input_data)
print(f"Output: {output}")
# Output: tensor([-0.9640, -0.4621,  0.0000,  0.4621,  0.9640])

Comparación con funciones de activación afines

Para entender cuándo utilizar Tanh es necesario distinguirla de otras funciones de activación comunes que se encuentran en el glosario.

Tanh vs. Sigmoide: Ambos tienen una forma de S, pero Sigmoid restringe la salida a [0, 1]. El rango de Tanh de [-1, 1] y su gradiente más pronunciado a menudo lo hacen preferible para las capas ocultas, ya que mitiga el problema de desplazamiento de sesgo causado por datos no centrados en cero.
Tanh contra ReLU: Aunque Tanh es potente, adolece del problema del gradiente evanescente, en el que los gradientes se vuelven casi nulos para entradas muy grandes o muy pequeñas, lo que detiene el aprendizaje en redes profundas. ReLU lo evita manteniendo los gradientes constantes para entradas positivas. Arquitecturas modernas como YOLO11 suelen preferir ReLU o SiLU por su eficiencia computacional y su capacidad para entrenar modelos más profundos.

Aplicaciones en IA y Machine Learning

A pesar del auge de ReLU, Tanh sigue siendo vital para arquitecturas y tareas específicas.

Redes neuronales recurrentes (RNN) y PNL

Tanh ha sido históricamente la función de activación estándar para redes neuronales recurrentes (RNN) y memoria a corto plazo (LSTM). En Procesamiento del Lenguaje Natural (PLN) como la traducción automática o la Tanh regula el flujo de información a través de las celdas de memoria de la red, garantizando que los valores no exploten a medida que se propagan en el tiempo.

Redes generativas adversariales (GAN)

En Las redes generativas adversariales (GAN), Tanh se utiliza con frecuencia en la capa final del modelo generador. Escala los valores de píxel de salida de las imágenes generadas a un rango normalizado de [-1, 1], lo que ayuda a estabilizar el proceso de entrenamiento adversarial contra el discriminador. Se puede ver esta arquitectura en trabajos seminales como el de DCGAN.

Análisis de sentimiento

Para modelos sencillos de análisis de sentimientos, Tanh puede servir como activación de salida para asignar puntuaciones de sentimiento directamente a un continuo, donde -1 representa un sentimiento muy negativo, 0 es neutral y +1 es muy positivo. negativo, 0 es neutro y +1 es muy positivo. Esta asignación intuitiva facilita la interpretación de las predicciones del modelo en conjuntos de datos como los que se muestran a continuación. en conjuntos de datos como los que se encuentran en Kaggle.

Mientras que los modelos de visión por ordenador más avanzados como YOLO11 han evolucionado hacia funciones no limitadas para para la extracción de características, Tanh sigue siendo una herramienta crucial en el conjunto de herramientas de los ingenieros de aprendizaje profundo, especialmente para tareas que requieren salidas acotadas y centradas en cero. que requieren resultados acotados y centrados en cero.

Tanh (Tangente Hiperbólica)

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Cómo funciona Tanh

Comparación con funciones de activación afines

Aplicaciones en IA y Machine Learning

Redes neuronales recurrentes (RNN) y PNL

Redes generativas adversariales (GAN)

Análisis de sentimiento

Leer más en esta categoría

Tendencias futuras en la detección de objetos: 7 aspectos clave a tener en cuenta

Mejora de la reidentificación de vehículos con los modelosYOLO Ultralytics

Mejora de la predicción de colisiones con los modelosYOLO Ultralytics

Únase a la comunidad Ultralytics