Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Élagage (Pruning)

Optimisez les modèles d'IA grâce à l'élagage : réduisez la complexité, améliorez l'efficacité et déployez plus rapidement sur les appareils périphériques sans sacrifier les performances.

L'élagage est une technique d'optimisation de modèle utilisée pour réduire la taille et la complexité de calcul d'un réseau neuronal (NN) entraîné. Le processus consiste à identifier et à supprimer les paramètres (poids) ou les structures (neurones, canaux ou couches) redondants ou moins importants du modèle. L'objectif est de créer un modèle plus petit, plus rapide et plus économe en énergie qui maintient un niveau de précision comparable à celui du modèle original. Ceci est particulièrement crucial pour le déploiement de modèles d'IA complexes dans des environnements aux ressources limitées, tels que les appareils périphériques.

Fonctionnement de l'élagage

Le processus d'élagage commence généralement après qu'un modèle d'apprentissage profond a été entièrement entraîné. Il repose sur le principe que de nombreux grands modèles sont surparamétrés, ce qui signifie qu'ils contiennent de nombreux poids et neurones qui contribuent très peu à la prédiction finale. Une méthode courante pour identifier ces composants non importants consiste à analyser leur magnitude ; les paramètres dont les valeurs sont proches de zéro sont considérés comme moins significatifs. Une fois identifiés, ces paramètres sont supprimés ou mis à zéro. Après le processus d'élagage, le réseau, désormais plus petit, subit généralement un affinage, qui implique de réentraîner le modèle pendant quelques époques supplémentaires. Cette étape aide les paramètres restants à s'adapter aux changements architecturaux et à récupérer toute performance qui aurait pu être perdue pendant l'élagage. Ce processus itératif d'élagage et d'affinage peut être répété pour atteindre un équilibre souhaité entre la taille du modèle et la performance, comme décrit dans des articles de recherche fondamentaux tels que « Deep Compression ».

Types d'élagage

Les techniques d'élagage peuvent être globalement classées en fonction de ce qui est supprimé du réseau :

  • Élagage non structuré (Weight Pruning) : Cette méthode supprime les poids individuels du réseau en fonction d'un critère spécifique, tel que leur amplitude. Il en résulte un modèle clairsemé, où de nombreuses connexions sont mises à zéro. Bien que cela puisse réduire considérablement le nombre de paramètres, cela ne conduit pas toujours à une inférence plus rapide sur du matériel standard tel que les CPU ou les GPU sans bibliothèques logicielles spécialisées, telles que les outils de NVIDIA pour les modèles clairsemés.
  • Élagage structuré : Cette approche supprime des composants structurels entiers du réseau, tels que des neurones, des canaux, ou même des couches entières au sein d'un réseau neuronal convolutif (CNN). Parce qu'elle supprime des blocs réguliers du réseau, elle réduit directement la taille du modèle et les besoins de calcul d'une manière que le matériel standard peut facilement exploiter, conduisant souvent à des accélérations plus prévisibles. Des outils comme DeepSparse de Neural Magic sont conçus pour accélérer l'inférence sur les CPU pour de tels modèles clairsemés structurés.

Les principaux frameworks d'apprentissage automatique tels que PyTorch et TensorFlow offrent des utilitaires intégrés et des didacticiels pour la mise en œuvre de l'élagage.

Applications concrètes

L'élagage est essentiel pour déployer des modèles d'IA puissants dans des scénarios pratiques où les ressources de calcul sont limitées.

  1. Optimisation de la détection d'objets sur les appareils Edge : Les modèles tels que Ultralytics YOLO sont utilisés pour la détection d'objets en temps réel. En élaguant un modèle comme YOLOv8, il peut être déployé sur des appareils Edge à faible consommation d'énergie comme un Raspberry Pi ou un NVIDIA Jetson. Cela permet des applications telles que la surveillance intelligente sur l'appareil, l'optimisation de la gestion du trafic et l'intégration de la vision par ordinateur dans la robotique.
  2. Exécution locale de grands modèles linguistiques (LLM) : L'élagage peut réduire considérablement l'empreinte mémoire des grands modèles linguistiques (LLM) basés sur des architectures comme le Transformer. Un LLM élagué peut s'exécuter directement sur un smartphone ou un ordinateur portable pour des tâches de traitement du langage naturel (NLP) comme la synthèse de texte ou les assistants virtuels locaux. Cela améliore la réactivité et renforce la confidentialité des données en conservant les données utilisateur sur l'appareil, un principe clé pour des organisations comme l'Electronic Frontier Foundation (EFF).

Élagage vs. autres techniques d'optimisation

L'élagage est l'une des nombreuses techniques d'optimisation de modèle et est souvent utilisé en parallèle avec d'autres. Il est important de le distinguer des concepts connexes :

  • Quantification de modèle : Cette technique réduit la précision numérique des poids et des activations du modèle (par exemple, des flottants de 32 bits aux entiers de 8 bits). Cela réduit la taille du modèle et peut accélérer le calcul, en particulier sur le matériel avec prise en charge spécialisée. Contrairement à l'élagage, qui supprime les paramètres, la quantification les compresse.
  • Distillation des connaissances: Dans cette méthode, un plus petit modèle "étudiant" est entraîné pour reproduire la sortie d'un plus grand modèle "enseignant" pré-entraîné. Le but est de transférer les connaissances apprises à une architecture plus compacte, tandis que l'élagage modifie l'architecture existante.

Ces techniques ne s'excluent pas mutuellement. Un flux de travail courant consiste d'abord à élaguer un modèle pour supprimer les paramètres redondants, puis à appliquer la quantification au modèle élagué pour une efficacité maximale. Les modèles optimisés peuvent ensuite être exportés vers des formats standard tels que ONNX à l'aide de la fonction d'exportation Ultralytics pour un déploiement étendu sur divers moteurs d'inférence. Des plateformes comme Ultralytics HUB peuvent aider à gérer l'ensemble du cycle de vie, de l'entraînement au déploiement de modèles optimisés.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers