Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Tanh (Tangente Hyperbolique)

Découvrez la puissance de la fonction d'activation Tanh dans les réseaux neuronaux. Apprenez comment elle permet à l'IA de modéliser des données complexes avec une efficacité centrée sur zéro !

La tangente hyperbolique (Tanh) est une fonction d'activation largement utilisée dans les réseaux neuronaux. Il s'agit d'une fonction mathématique qui comprime les valeurs d'entrée dans une plage comprise entre -1 et 1. Visuellement, elle produit une courbe en forme de « S », similaire à la fonction Sigmoïde. Sa principale caractéristique est que sa sortie est centrée sur zéro, ce qui signifie que les entrées négatives sont mappées sur des sorties négatives et les entrées positives sur des sorties positives. Cette propriété peut contribuer à accélérer la convergence des algorithmes d'optimisation comme la descente de gradient pendant le processus d'entraînement du modèle.

Comment fonctionne la fonction Tanh

Dans un modèle d'apprentissage profond, une fonction d'activation décide si un neurone doit être activé ou non en calculant une somme pondérée et en y ajoutant un biais. La fonction Tanh prend n'importe quel nombre réel et le mappe à la plage [-1, 1]. Les grandes valeurs positives sont mappées près de 1, les grandes valeurs négatives sont mappées près de -1, et les valeurs proches de zéro sont mappées à des valeurs autour de zéro. Cette nature centrée sur zéro est un avantage significatif, car elle aide à empêcher les sorties des couches de trop dévier dans une direction, ce qui peut rendre l'entraînement plus stable. Pour une explication technique approfondie, les ressources d'institutions comme Stanford offrent des notes de cours détaillées sur les fonctions d'activation.

Comparaison avec d'autres fonctions d'activation

La fonction Tanh est souvent comparée à d'autres fonctions d'activation, chacune ayant ses propres forces et faiblesses :

  • Tanh vs. Sigmoid : Les deux fonctions ont une forme en S similaire. Cependant, la fonction Sigmoid produit des valeurs dans la plage, tandis que Tanh produit des valeurs dans [-1, 1]. Étant donné que la sortie de Tanh est centrée sur zéro, elle est souvent préférée à Sigmoid dans les couches cachées d'un réseau, car elle a tendance à conduire à une convergence plus rapide.
  • Tanh vs. ReLU : ReLU et ses variantes, comme Leaky ReLU et SiLU, sont devenues le choix par défaut dans de nombreuses architectures modernes de vision par ordinateur. Contrairement à Tanh, ReLU n'est pas coûteuse en calcul et aide à atténuer le problème de disparition du gradient, où les gradients deviennent extrêmement petits pendant la rétropropagation. Cependant, Tanh reste intéressante dans des contextes spécifiques où une sortie bornée est requise. Vous pouvez voir l'utilisation de fonctions d'activation modernes dans des modèles comme Ultralytics YOLO11.

Applications dans l'IA et l'apprentissage automatique

La fonction Tanh a toujours été un choix populaire, en particulier dans :

  • Réseaux neuronaux récurrents (RNNs) : La fonction Tanh était couramment utilisée dans les états cachés des RNNs et des variantes comme les réseaux Long Short-Term Memory (LSTM), en particulier pour les tâches de traitement du langage naturel (NLP). Sa plage bornée aide à réguler le flux d'informations au sein des connexions récurrentes. Voir Comprendre les LSTMs pour plus de détails.
  • Analyse des sentiments : Dans les anciens modèles de TAL, Tanh aidait à mapper les caractéristiques extraites du texte (par exemple, les incorporations de mots traitées par un RNN) à une plage continue, représentant la polarité du sentiment de négatif (-1) à positif (+1). Vous pouvez trouver des ensembles de données pertinents pour l'analyse des sentiments sur des plateformes comme Kaggle.
  • Systèmes de contrôle et robotique : Dans l'apprentissage par renforcement (RL), Tanh est parfois utilisé comme fonction d'activation finale pour les politiques qui produisent des actions continues limitées dans une plage spécifique (par exemple, le contrôle du couple moteur entre -1 et +1). Les frameworks comme Gymnasium (anciennement OpenAI Gym) sont souvent utilisés dans la recherche sur le RL.
  • Couches cachées : Il peut être utilisé dans les couches cachées des réseaux feedforward, bien que les variantes ReLU soient maintenant plus courantes. Il peut être choisi lorsque la propriété centrée sur zéro est particulièrement bénéfique pour le problème ou l'architecture spécifique. Vous pouvez explorer les performances de différentes architectures dans nos pages de comparaison de modèles.

Bien que les architectures modernes comme Ultralytics YOLO utilisent souvent des fonctions comme SiLU pour des tâches telles que la détection d'objets, la compréhension de Tanh reste précieuse. Elle fournit un contexte pour l'évolution des fonctions d'activation et pourrait encore apparaître dans des conceptions de réseaux spécifiques ou des systèmes existants. Des frameworks comme PyTorch et TensorFlow fournissent des implémentations standard de Tanh. Vous pouvez entraîner et expérimenter différentes fonctions d'activation en utilisant des plateformes comme Ultralytics HUB. Le site web Papers with Code répertorie également les recherches qui utilisent Tanh.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers