Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

SiLU (Sigmoid Linear Unit)

Découvrez comment la fonction d'activation SiLU (Swish) améliore les performances du deep learning dans les tâches d'IA telles que la détection d'objets et le NLP.

La Sigmoid Linear Unit, communément appelée SiLU, est une fonction d'activation utilisée dans les réseaux neuronaux qui a gagné en popularité pour son efficacité et sa performance. C'est une fonction auto-portée qui combine élégamment les propriétés des fonctions Sigmoïde et Rectified Linear Unit (ReLU). SiLU a été introduite dans l'article "Searching for Activation Functions," où elle était initialement appelée Swish. Ses propriétés uniques, telles que la douceur et la non-monotonicité, lui permettent souvent de surpasser les fonctions d'activation traditionnelles comme ReLU dans les modèles profonds, ce qui conduit à une meilleure précision et à une convergence plus rapide pendant l'entraînement du modèle.

Fonctionnement de SiLU

SiLU est définie en multipliant une valeur d'entrée par sa sigmoïde. Ce mécanisme d'auto-gating permet à la fonction de passer en douceur d'un état linéaire pour les entrées positives à un état proche de zéro pour les grandes entrées négatives, ce qui aide à réguler le flux d'informations à travers le réseau. Une caractéristique clé de SiLU est sa non-monotonicité ; elle peut légèrement descendre en dessous de zéro pour les petites entrées négatives avant de remonter vers zéro. On pense que cette propriété améliore la puissance expressive du réseau neuronal en créant un paysage de gradient plus riche et en empêchant le problème de disparition du gradient qui peut ralentir ou arrêter le processus d'apprentissage dans les architectures profondes. La douceur de la courbe SiLU est également un avantage significatif, car elle assure un gradient lisse pour les algorithmes d'optimisation comme la descente de gradient.

Comparaison de SiLU avec d'autres fonctions d'activation

SiLU offre plusieurs avantages par rapport aux autres fonctions d'activation couramment utilisées, ce qui en fait un choix intéressant pour les architectures modernes de deep learning (DL).

  • ReLU (Rectified Linear Unit) : Contrairement à ReLU, qui a un changement brusque à zéro et un gradient zéro constant pour toutes les entrées négatives, SiLU est une fonction lisse et continue. Cette douceur aide pendant le processus de rétropropagation. De plus, SiLU évite le problème de la « ReLU mourante », où les neurones peuvent devenir définitivement inactifs s’ils reçoivent constamment des entrées négatives.
  • ReLU avec fuite (Leaky ReLU): Bien que la ReLU avec fuite résolve également le problème des neurones mourants en autorisant un gradient faible et non nul pour les entrées négatives, la courbe lisse et non monotone de SiLU peut parfois conduire à une meilleure généralisation et optimisation dans les réseaux profonds.
  • Sigmoïde : La fonction sigmoïde est un composant essentiel de SiLU, mais leurs applications diffèrent considérablement. La sigmoïde est généralement utilisée dans la couche de sortie pour les tâches de classification binaire ou comme mécanisme de gating dans les RNN. En revanche, SiLU est conçu pour les couches cachées et il a été démontré qu'il améliore les performances dans les réseaux neuronaux convolutifs (CNN).
  • GELU (Gaussian Error Linear Unit): SiLU est souvent comparée à GELU, une autre fonction d'activation lisse qui a montré d'excellentes performances, en particulier dans les modèles Transformer. Les deux fonctions ont des formes et des caractéristiques de performance similaires, le choix entre elles se résumant souvent aux résultats empiriques du réglage des hyperparamètres.

Applications dans l'IA et l'apprentissage automatique

L'équilibre entre efficacité et performance a fait de SiLU un choix populaire dans divers modèles de pointe.

  • Détection d'objets: Les modèles avancés de détection d'objets, y compris les versions d'Ultralytics YOLO, utilisent SiLU dans leurs couches cachées. Par exemple, dans les applications comme les véhicules autonomes qui reposent sur la détection en temps réel, SiLU aide le modèle à apprendre plus efficacement les caractéristiques complexes des données de capteurs, améliorant ainsi la précision de la détection des piétons, des panneaux de signalisation et des autres véhicules. Cet apprentissage amélioré des caractéristiques est essentiel pour la sécurité et la fiabilité, en particulier lors de l'entraînement sur des ensembles de données à grande échelle comme COCO.
  • Classification d'images : SiLU est un élément clé dans les modèles de classification efficaces et puissants, tels que la famille de modèles EfficientNet. Dans des domaines comme l'analyse d'images médicales, la capacité de SiLU à préserver le flux de gradient aide les modèles à apprendre les textures et les motifs subtils. Ceci est bénéfique pour des tâches telles que la classification des tumeurs à partir d'IRM ou l'identification des maladies à partir de radiographies pulmonaires, où une grande précision est primordiale.

Implémentation

SiLU est facilement disponible dans les principaux frameworks de deep learning, ce qui facilite son intégration dans des modèles nouveaux ou existants.

Des plateformes comme Ultralytics HUB prennent en charge l'entraînement de modèles et l'exploration de diverses options de déploiement pour les modèles utilisant des composants avancés comme SiLU. La recherche continue et les ressources d'organisations comme DeepLearning.AI aident les praticiens à exploiter efficacement ces fonctions. Le choix d'une fonction d'activation reste un élément essentiel de la conception d'architectures de réseaux neuronaux efficaces, et SiLU représente une avancée significative dans ce domaine.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers