Élagage et quantification en vision par ordinateur : Un guide rapide
Découvre pourquoi l'élagage (pruning) et la quantification sont essentiels pour optimiser les modèles de vision par ordinateur et permettre des performances plus rapides sur les appareils périphériques.

Les appareils de périphérie (Edge devices) deviennent de plus en plus courants grâce aux avancées technologiques. Des montres connectées qui suivent ton rythme cardiaque aux drones aériens qui surveillent les rues, les systèmes Edge peuvent traiter des données en temps réel localement, au sein même de l'appareil.
Cette méthode est souvent plus rapide et plus sécurisée que l'envoi de données vers le cloud, surtout pour les applications impliquant des données personnelles, comme la détection de plaques d'immatriculation ou le suivi de gestes. Ce sont des exemples de vision par ordinateur, une branche de l'intelligence artificielle (IA) qui permet aux machines d'interpréter et de comprendre les informations visuelles.

Fig 1. Un exemple de détection de plaque d'immatriculation. (Source)
Cependant, une considération importante est que de telles applications nécessitent des modèles d'IA de vision capables de gérer des calculs intensifs, d'utiliser des ressources minimales et de fonctionner de manière autonome. La plupart des modèles de vision par ordinateur sont développés pour des systèmes haute performance, ce qui les rend moins adaptés à un déploiement direct sur des appareils Edge.
Pour combler ce fossé, les développeurs appliquent souvent des optimisations ciblées qui adaptent le modèle pour qu'il s'exécute efficacement sur du matériel plus petit. Ces ajustements sont cruciaux pour les déploiements Edge dans le monde réel, où la mémoire et la puissance de traitement sont limitées.
Il est intéressant de noter que les modèles de vision par ordinateur comme Ultralytics YOLO11 sont déjà conçus en pensant à l'efficacité Edge, ce qui les rend parfaits pour les tâches en temps réel. Cependant, leurs performances peuvent être encore améliorées grâce à des techniques d'optimisation de modèle telles que l'élagage et la quantification, permettant une inférence encore plus rapide et une consommation de ressources réduite sur les appareils contraints.
Dans cet article, nous examinerons de plus près ce que sont l'élagage et la quantification, comment ils fonctionnent et comment ils peuvent aider les modèles YOLO à performer dans les déploiements Edge réels. Commençons !
Link to this sectionÉlagage et quantification : techniques fondamentales de l'optimisation de modèle#
Lors de la préparation des modèles d'IA de vision pour un déploiement sur des appareils Edge, l'un des objectifs clés est de rendre le modèle léger et fiable sans sacrifier les performances. Cela implique souvent de réduire la taille et les exigences computationnelles du modèle afin qu'il puisse fonctionner efficacement sur du matériel ayant une mémoire, une puissance ou une capacité de traitement limitées. Deux méthodes courantes pour y parvenir sont l'élagage et la quantification.
L'élagage est une technique d'optimisation de modèle d'IA qui aide à rendre les réseaux neuronaux plus petits et plus efficaces. Dans de nombreux cas, des parties d'un modèle, telles que certaines connexions ou nœuds, ne contribuent pas beaucoup à ses prédictions finales. L'élagage fonctionne en identifiant et en supprimant ces parties moins importantes, ce qui réduit la taille du modèle et accélère ses performances.
D'autre part, la quantification est une technique d'optimisation qui réduit la précision des nombres utilisés par un modèle. Au lieu de s'appuyer sur des nombres à virgule flottante 32 bits de haute précision, le modèle passe à des formats plus petits et plus efficaces comme les entiers 8 bits. Ce changement aide à réduire l'utilisation de la mémoire et accélère l'inférence, le processus par lequel le modèle effectue des prédictions.

Fig 2. Un regard sur l'élagage et la quantification. (Source)
Link to this sectionComment fonctionnent l'élagage et la quantification#
Maintenant que nous comprenons mieux ce que sont l'élagage et la quantification, voyons comment ils fonctionnent tous les deux.
L'élagage est effectué à l'aide d'un processus connu sous le nom d'analyse de sensibilité. Il identifie les parties des modèles de réseaux neuronaux, comme certains poids, neurones ou canaux, qui contribuent le moins à la prédiction finale. Ces parties peuvent être supprimées avec un effet minimal sur la précision. Après l'élagage, le modèle est généralement réentraîné pour affiner ses performances. Ce cycle peut être répété pour trouver le bon équilibre entre sa taille et sa précision.
Pendant ce temps, la quantification de modèle se concentre sur la façon dont le modèle traite les données. Elle commence par un calibrage, où le modèle s'exécute sur des données d'échantillon pour apprendre la plage de valeurs qu'il doit traiter. Ces valeurs sont ensuite converties de la virgule flottante 32 bits vers des formats de précision inférieure comme les entiers 8 bits.

Fig 3. La quantification aide à réduire la taille et la complexité du modèle. (Source)
Il existe plusieurs outils disponibles qui facilitent l'utilisation de l'élagage et de la quantification dans les projets d'IA concrets. La plupart des frameworks d'IA, tels que PyTorch et TensorFlow, incluent un support intégré pour ces techniques d'optimisation, permettant aux développeurs de les intégrer directement dans le processus de déploiement de modèle.
Une fois qu'un modèle est optimisé, des outils comme ONNX Runtime peuvent aider à l'exécuter efficacement sur diverses plates-formes matérielles telles que les serveurs, les ordinateurs de bureau et les appareils Edge. De plus, Ultralytics propose des intégrations qui permettent aux modèles YOLO d'être exportés dans des formats adaptés à la quantification, ce qui facilite la réduction de la taille du modèle et l'augmentation des performances.
Link to this sectionUn aperçu de l'optimisation des modèles Ultralytics YOLO#
Les modèles Ultralytics YOLO comme YOLO11 sont largement reconnus pour leur détection d'objets rapide en une seule étape, ce qui les rend idéaux pour les tâches d'IA de vision en temps réel. Ils sont déjà conçus pour être légers et suffisamment efficaces pour un déploiement Edge. Cependant, les couches responsables du traitement des caractéristiques visuelles, appelées couches de convolution, peuvent encore demander une puissance de calcul considérable lors de l'inférence.
Tu pourrais te demander : si YOLO11 est déjà optimisé pour une utilisation Edge, pourquoi a-t-il besoin d'une optimisation supplémentaire ? En termes simples, tous les appareils Edge ne sont pas identiques. Certains fonctionnent avec un matériel très minimal, comme des minuscules processeurs embarqués qui consomment moins d'énergie qu'une ampoule LED standard.
Dans ces cas-là, même un modèle rationalisé comme YOLO11 a besoin d'une optimisation supplémentaire pour garantir des performances fluides et fiables. Des techniques comme l'élagage et la quantification aident à réduire la taille du modèle et à accélérer l'inférence sans affecter de manière significative la précision, ce qui les rend idéales pour de tels environnements contraints.
Pour faciliter l'application de ces techniques d'optimisation, Ultralytics prend en charge diverses intégrations qui peuvent être utilisées pour exporter les modèles YOLO dans plusieurs formats tels que ONNX, TensorRT, OpenVINO, CoreML et PaddlePaddle. Chaque format est conçu pour bien fonctionner avec des types de matériel et des environnements de déploiement spécifiques.
Par exemple, ONNX est souvent utilisé dans les workflows de quantification en raison de sa compatibilité avec un large éventail d'outils et de plates-formes. TensorRT, d'autre part, est hautement optimisé pour les appareils NVIDIA et prend en charge l'inférence à faible précision utilisant INT8, ce qui le rend idéal pour un déploiement à haute vitesse sur des GPU Edge.
Link to this sectionCas d'utilisation percutants de l'optimisation des modèles Ultralytics YOLO#
À mesure que la vision par ordinateur continue de s'étendre dans diverses applications réelles, les modèles YOLO optimisés permettent d'exécuter des tâches comme la détection d'objets, la segmentation d'instances et le suivi d'objets sur du matériel plus petit et plus rapide. Ensuite, discutons de quelques cas d'utilisation où l'élagage et la quantification rendent ces tâches de vision par ordinateur plus efficaces et pratiques.
Link to this sectionSurveillance intelligente pilotée par YOLO11#
De nombreux espaces industriels, ainsi que des zones publiques, dépendent de la surveillance en temps réel pour rester sûrs et sécurisés. Des lieux comme les gares, les sites de fabrication et les grandes installations extérieures ont besoin de systèmes d'IA de vision capables de détecter rapidement et précisément les personnes ou les véhicules. Souvent, ces sites fonctionnent avec une connectivité limitée et des contraintes matérielles, ce qui rend difficile le déploiement de grands modèles.
Dans de tels cas, un modèle d'IA de vision optimisé comme YOLO11 est une excellente solution. Sa taille compacte et ses performances rapides le rendent parfait pour fonctionner sur des appareils Edge basse consommation, tels que des caméras embarquées ou des capteurs intelligents. Ces modèles peuvent traiter les données visuelles directement sur l'appareil, permettant la détection en temps réel des violations de sécurité, des accès non autorisés ou des activités anormales, sans dépendre d'un accès cloud constant.

Fig 4. YOLO11 peut être utilisé pour surveiller des lieux publics comme des stations de métro.
Link to this sectionAmélioration de la sécurité sur les chantiers de construction avec YOLO11#
Les chantiers de construction sont des environnements rapides et imprévisibles, remplis de machines lourdes, de travailleurs en mouvement et d'une activité constante. Les conditions peuvent changer rapidement en raison de changements de planning, du déplacement de l'équipement ou même de changements soudains de météo. Dans un cadre aussi dynamique, la sécurité des travailleurs peut sembler être un défi continu.
La surveillance en temps réel joue un rôle crucial, mais les systèmes traditionnels reposent souvent sur un accès cloud ou du matériel coûteux qui peut ne pas être pratique sur le site. C'est là que des modèles comme YOLO11 peuvent avoir un impact. YOLO11 peut être optimisé pour fonctionner sur de petits appareils Edge efficaces qui travaillent directement sur le site sans avoir besoin d'une connexion Internet.
Par exemple, imagine un grand chantier de construction comme une extension d'autoroute qui s'étend sur plusieurs hectares. Dans ce type de cadre, suivre manuellement chaque véhicule ou pièce d'équipement peut être difficile et chronophage. Un drone équipé d'une caméra et d'un modèle YOLO11 optimisé peut aider en détectant et en suivant automatiquement les véhicules, en surveillant le flux de trafic et en identifiant les problèmes de sécurité comme les accès non autorisés ou les comportements de conduite dangereux.

Fig 5. Analyse d'images de drone provenant d'un chantier de construction. (Source)
Link to this sectionAvantages et inconvénients de l'élagage et de la quantification en vision par ordinateur#
Voici quelques avantages clés offerts par les méthodes d'optimisation de modèles de vision par ordinateur comme l'élagage et la quantification :
- Déploiement rentable : Des modèles plus petits et plus efficaces peuvent réduire le besoin de matériel haut de gamme coûteux, rendant l'IA plus accessible et évolutive pour différents cas d'utilisation.
- Latence réduite : En simplifiant l'architecture du modèle et en réduisant la charge computationnelle, ces techniques peuvent aider à obtenir des temps de réponse plus rapides dans les applications en temps réel.
- Efficacité énergétique : La réduction de la charge computationnelle diminue également la consommation d'énergie, ce qui est particulièrement utile pour les systèmes mobiles ou alimentés par batterie.
Bien que l'élagage et la quantification offrent de nombreux avantages, ils comportent également certains compromis que les développeurs devraient prendre en compte lors de l'optimisation des modèles. Voici quelques limitations à garder à l'esprit :
- Compromis sur la précision : Si l'élagage est trop agressif ou si une quantification à très faible bit est utilisée, la précision du modèle, mesurée par des métriques comme le mAP, peut diminuer.
- Contraintes matérielles : Tous les appareils ne prennent pas en charge aussi bien les formats de précision inférieure comme INT8. Cela peut restreindre où et comment un modèle optimisé peut être déployé.
- Complexité de mise en œuvre : Obtenir de bons résultats nécessite souvent un réglage minutieux et spécifique au modèle. Les développeurs peuvent avoir besoin de réentraîner le modèle et d'effectuer des tests approfondis pour maintenir les performances tout en améliorant l'efficacité.
Link to this sectionPoints clés#
L'élagage et la quantification sont des techniques utiles qui aident les modèles YOLO à mieux fonctionner sur les appareils Edge. Ils réduisent la taille du modèle, diminuent ses besoins en calcul et accélèrent les prédictions, le tout sans perte notable de précision.
Ces méthodes d'optimisation donnent également aux développeurs la flexibilité d'ajuster les modèles pour différents types de matériel sans avoir besoin de les reconstruire complètement. Avec un peu de réglage et de test, il devient plus facile d'appliquer l'IA de vision dans des situations réelles.
Rejoins notre communauté grandissante ! Explore notre dépôt GitHub pour en apprendre davantage sur l'IA. Prêt à démarrer tes projets de vision par ordinateur ? Consulte nos options de licence. Découvre l'IA dans l'agriculture et l'IA de vision dans la santé en visitant nos pages de solutions !






