Glossaire

Tanh (Tangente hyperbolique)

Découvrez la puissance de la fonction d'activation Tanh dans les réseaux neuronaux. Apprenez comment elle permet à l'IA de modéliser des données complexes avec une efficacité centrée sur le zéro !

Tanh (Tangente hyperbolique) est une fonction d'activation largement utilisée dans les réseaux neuronaux. Il s'agit d'une fonction mathématique qui écrase les valeurs d'entrée dans une plage comprise entre -1 et 1. Visuellement, elle produit une courbe en forme de "S", similaire à la fonction Sigmoïde. Sa principale caractéristique est que sa sortie est centrée sur le zéro, ce qui signifie que les entrées négatives sont mises en correspondance avec des sorties négatives et que les entrées positives sont mises en correspondance avec des sorties positives. Cette propriété peut contribuer à accélérer la convergence des algorithmes d'optimisation tels que la descente de gradient au cours du processus d'apprentissage du modèle.

Comment fonctionne Tanh ?

Dans un modèle d'apprentissage profond, une fonction d'activation décide si un neurone doit être activé ou non en calculant une somme pondérée et en y ajoutant un biais. La fonction Tanh prend n'importe quel nombre à valeur réelle et l'associe à l'intervalle [-1, 1]. Les grandes valeurs positives sont rapprochées de 1, les grandes valeurs négatives sont rapprochées de -1 et les valeurs proches de zéro sont rapprochées des valeurs proches de zéro. Cette nature centrée sur le zéro est un avantage significatif, car elle permet d'éviter que les sorties des couches ne se déplacent trop dans une direction, ce qui peut rendre l'apprentissage plus stable. Pour une explication technique approfondie, des institutions telles que Stanford proposent des notes de cours détaillées sur les fonctions d'activation.

Comparaison avec d'autres fonctions d'activation

Tanh est souvent comparé à d'autres fonctions d'activation, chacune ayant ses propres forces et faiblesses :

  • Tanh vs. Sigmoïde: Les deux fonctions ont une forme en S similaire. Cependant, la fonction Sigmoïde produit des valeurs dans l'intervalle, alors que Tanh produit des valeurs dans [-1, 1]. La sortie de Tanh étant centrée sur zéro, elle est souvent préférée à la fonction Sigmoïde dans les couches cachées d'un réseau, car elle tend à conduire à une convergence plus rapide.
  • Tanh contre ReLU: ReLU et ses variantes, comme Leaky ReLU et SiLU, sont devenus le choix par défaut dans de nombreuses architectures modernes de vision par ordinateur. Contrairement à Tanh, ReLU n'est pas coûteux en termes de calcul et permet d'atténuer le problème du gradient qui s'évanouit, lorsque les gradients deviennent extrêmement petits pendant la rétropropagation. Cependant, Tanh reste utile dans des contextes spécifiques où une sortie limitée est nécessaire. Vous pouvez voir l'utilisation de fonctions d'activation modernes dans des modèles comme Ultralytics YOLO11.

Applications en matière d'IA et d'apprentissage automatique

Tanh a toujours été un choix populaire, en particulier dans les pays de l'Union européenne :

  • Réseaux neuronaux récurrents (RNN): Le Tanh a été couramment utilisé dans les états cachés des RNN et de leurs variantes, comme les réseaux de mémoire à long terme (LSTM), en particulier pour les tâches de traitement du langage naturel (NLP). Sa portée limitée permet de réguler le flux d'informations au sein des connexions récurrentes. Voir Comprendre les LSTM pour plus de détails.
  • Analyse des sentiments: Dans les anciens modèles de NLP, Tanh aidait à faire correspondre les caractéristiques extraites du texte (par exemple, les enchâssements de mots traités par un RNN) à une plage continue, représentant la polarité du sentiment, de négatif (-1) à positif (+1). Vous pouvez trouver des ensembles de données pertinents pour l'analyse des sentiments sur des plateformes telles que Kaggle.
  • Systèmes de contrôle et robotique: Dans l'apprentissage par renforcement (RL), Tanh est parfois utilisé comme fonction d'activation finale pour les politiques qui produisent des actions continues limitées dans une plage spécifique (par exemple, contrôler le couple du moteur entre -1 et +1). Des cadres comme Gymnasium (anciennement OpenAI Gym) sont souvent utilisés dans la recherche sur l'apprentissage par renforcement.
  • Couches cachées : Elle peut être utilisée dans les couches cachées des réseaux de type feedforward, bien que les variantes ReLU soient désormais plus courantes. Il peut être choisi lorsque la propriété zéro-centrée est particulièrement bénéfique pour le problème ou l'architecture en question. Vous pouvez explorer les performances de différentes architectures dans nos pages de comparaison de modèles.

Bien que les architectures modernes comme Ultralytics YOLO utilisent souvent des fonctions comme SiLU pour des tâches telles que la détection d'objets, la compréhension de Tanh reste précieuse. Elle fournit un contexte pour l'évolution des fonctions d'activation et peut encore apparaître dans des conceptions de réseaux spécifiques ou des systèmes hérités. Des frameworks comme PyTorch et TensorFlow fournissent des implémentations standard de Tanh. Vous pouvez vous entraîner et expérimenter différentes fonctions d'activation à l'aide de plateformes comme Ultralytics HUB. Le site web Papers with Code répertorie également les recherches qui utilisent Tanh.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers