L'élagage et la quantification en vision artificielle : Un guide rapide

Abirami Vina

5 minutes de lecture

11 juillet 2025

Découvrez pourquoi l'élagage et la quantification sont essentiels à l'optimisation des modèles de vision par ordinateur et à l'obtention de performances plus rapides sur les appareils périphériques.

Les dispositifs de pointe deviennent de plus en plus courants avec les progrès technologiques. Des smartwatches qui suivent votre rythme cardiaque aux drones aériens qui surveillent les rues, les systèmes périphériques peuvent traiter les données en temps réel au sein même de l'appareil. 

Cette méthode est souvent plus rapide et plus sûre que l'envoi de données dans le nuage, en particulier pour les applications impliquant des données personnelles, telles que la détection des plaques d'immatriculation ou le suivi des gestes. Il s'agit d'exemples de vision par ordinateur, une branche de l'intelligence artificielle (IA) qui permet aux machines d'interpréter et de comprendre les informations visuelles.

Fig. 1. Exemple de détection de plaques d'immatriculation.(Source)

Toutefois, il est important de noter que ces applications nécessitent des modèles d'intelligence artificielle capables de gérer des calculs lourds, d'utiliser un minimum de ressources et de fonctionner de manière autonome. La plupart des modèles de vision par ordinateur sont développés pour des systèmes à haute performance, ce qui les rend moins adaptés à un déploiement direct sur des appareils périphériques. 

Pour combler cette lacune, les développeurs appliquent souvent des optimisations ciblées qui adaptent le modèle pour qu'il s'exécute efficacement sur du matériel plus petit. Ces ajustements sont essentiels pour les déploiements en périphérie du monde réel, où la mémoire et la puissance de traitement sont limitées. 

Il est intéressant de noter que les modèles de vision par ordinateur comme Ultralytics YOLO11 sont déjà conçus en tenant compte de l'efficacité des bords, ce qui les rend parfaits pour les tâches en temps réel. Cependant, leurs performances peuvent être encore améliorées en utilisant des techniques d'optimisation de modèle telles que l'élagage et la quantification, ce qui permet une inférence encore plus rapide et une utilisation plus faible des ressources sur des appareils limités.

Dans cet article, nous allons examiner de plus près ce que sont l'élagage et la quantification, comment ils fonctionnent et comment ils peuvent aider les modèles YOLO à être performants dans les déploiements en périphérie du monde réel. Commençons par le commencement !

Élagage et quantification : Techniques de base pour l'optimisation des modèles

Lors de la préparation des modèles Vision AI en vue de leur déploiement sur des appareils périphériques, l'un des principaux objectifs est de rendre le modèle léger et fiable sans sacrifier les performances. Cela implique souvent de réduire la taille du modèle et les exigences de calcul afin qu'il puisse fonctionner efficacement sur du matériel dont la mémoire, la puissance ou la capacité de traitement sont limitées. L'élagage et la quantification sont deux méthodes courantes pour y parvenir.

L'élagage est une technique d'optimisation des modèles d' IA qui permet de réduire la taille des réseaux neuronaux et de les rendre plus efficaces. Dans de nombreux cas, certaines parties d'un modèle, comme certaines connexions ou certains nœuds, ne contribuent pas beaucoup à ses prédictions finales. L'élagage consiste à identifier et à supprimer ces parties moins importantes, ce qui réduit la taille du modèle et accélère ses performances.

D'autre part, la quantification est une technique d'optimisation qui réduit la précision des nombres utilisés par un modèle. Au lieu de s'appuyer sur des nombres à virgule flottante 32 bits de haute précision, le modèle passe à des formats plus petits et plus efficaces, tels que les nombres entiers 8 bits. Ce changement permet de réduire l'utilisation de la mémoire et d'accélérer l'inférence, c'est-à-dire le processus par lequel le modèle fait des prédictions.

Fig 2. Aperçu de l'élagage et de la quantification.(Source)

Fonctionnement de l'élagage et de la quantification

Maintenant que nous comprenons mieux ce que sont l'élagage et la quantification, voyons comment ils fonctionnent. 

L'élagage s'effectue à l'aide d'un processus connu sous le nom d'analyse de sensibilité. Elle identifie les parties des modèles de réseaux neuronaux, telles que certains poids, neurones ou canaux, qui contribuent le moins à la prédiction de la sortie finale. Ces parties peuvent être supprimées avec un effet minimal sur la précision. Après l'élagage, le modèle est généralement réentraîné pour affiner ses performances. Ce cycle peut être répété pour trouver le bon équilibre entre sa taille et sa précision.

La quantification du modèle, quant à elle, se concentre sur la manière dont le modèle traite les données. Elle commence par l'étalonnage, où le modèle s'exécute sur des échantillons de données pour apprendre la gamme de valeurs qu'il doit traiter. Ces valeurs sont ensuite converties de la virgule flottante 32 bits en formats de moindre précision, comme les entiers 8 bits.

Fig. 3. La quantification permet de réduire la taille et la complexité du modèle.(Source)

Il existe plusieurs outils qui facilitent l'utilisation de l'élagage et de la quantification dans les projets d'IA du monde réel. La plupart des frameworks d'IA, tels que PyTorch et TensorFlow, comprennent une prise en charge intégrée de ces techniques d'optimisation, ce qui permet aux développeurs de les intégrer directement dans le processus de déploiement du modèle. 

Une fois qu'un modèle est optimisé, des outils comme ONNX Runtime peuvent aider à l'exécuter efficacement sur différentes plates-formes matérielles comme les serveurs, les ordinateurs de bureau et les appareils périphériques. Ultralytics propose également des intégrations qui permettent d'exporter les modèles YOLO dans des formats adaptés à la quantification, ce qui facilite la réduction de la taille du modèle et l'amélioration des performances.

Aperçu de l'optimisation du modèle YOLO d'Ultralytics

Les modèles YOLO d'Ultralytics, comme YOLO11, sont largement reconnus pour leur rapidité de détection d'objets en une seule étape, ce qui les rend idéaux pour les tâches d'intelligence artificielle en temps réel. Ils sont déjà conçus pour être suffisamment légers et efficaces pour être déployés en périphérie. Cependant, les couches responsables du traitement des caractéristiques visuelles, appelées couches convolutives, peuvent encore exiger une puissance de calcul considérable pendant l'inférence.

Vous vous demandez peut-être : si YOLO11 est déjà optimisé pour une utilisation en périphérie, pourquoi a-t-il besoin d'une optimisation supplémentaire ? Tout simplement parce que tous les appareils périphériques ne sont pas identiques. Certains fonctionnent avec un matériel très minimal, comme de minuscules processeurs intégrés qui consomment moins d'énergie qu'une ampoule LED standard. 

Dans ces cas, même un modèle simplifié comme YOLO11 nécessite une optimisation supplémentaire pour garantir des performances fluides et fiables. Des techniques telles que l'élagage et la quantification permettent de réduire la taille du modèle et d'accélérer l'inférence sans affecter de manière significative la précision, ce qui les rend idéales pour de tels environnements contraignants.

Pour faciliter l'application de ces techniques d'optimisation, Ultralytics prend en charge diverses intégrations qui peuvent être utilisées pour exporter les modèles YOLO dans plusieurs formats tels que ONNX, TensorRT, OpenVINO, CoreML et PaddlePaddle. Chaque format est conçu pour fonctionner avec des types spécifiques de matériel et d'environnements de déploiement. 

Par exemple, ONNX est souvent utilisé dans les flux de travail de quantification en raison de sa compatibilité avec un large éventail d'outils et de plates-formes. TensorRT, quant à lui, est hautement optimisé pour les appareils NVIDIA et prend en charge l'inférence de faible précision à l'aide d'INT8, ce qui le rend idéal pour un déploiement à grande vitesse sur les GPU de pointe.

Cas d'utilisation de l'optimisation du modèle YOLO d'Ultralytics

Alors que la vision par ordinateur continue de s'étendre à diverses applications du monde réel, les modèles YOLO optimisés permettent d'exécuter des tâches telles que la détection d'objets, la segmentation d'instances et le suivi d'objets sur du matériel plus petit et plus rapide. Voyons maintenant quelques cas d'utilisation où l'élagage et la quantification rendent ces tâches de vision par ordinateur plus efficaces et plus pratiques.

La surveillance intelligente pilotée par YOLO11

De nombreux espaces industriels, ainsi que des zones publiques, dépendent de la surveillance en temps réel pour rester sûrs et sécurisés. Des lieux tels que les stations de transport, les sites de production et les grandes installations extérieures ont besoin de systèmes Vision AI capables de détecter les personnes ou les véhicules avec rapidité et précision. Souvent, ces lieux fonctionnent avec une connectivité limitée et des contraintes matérielles, ce qui rend difficile le déploiement de grands modèles.

Dans de tels cas, un modèle Vision AI optimisé comme YOLO11 est une excellente solution. Sa taille compacte et ses performances rapides le rendent parfait pour fonctionner sur des appareils périphériques à faible consommation, tels que des caméras intégrées ou des capteurs intelligents. Ces modèles peuvent traiter les données visuelles directement sur l'appareil, ce qui permet de détecter en temps réel les violations de la sécurité, les accès non autorisés ou les activités anormales, sans dépendre d'un accès constant au cloud.

Fig. 4. YOLO11 peut être utilisé pour surveiller des lieux publics tels que les stations de métro.

Renforcer la sécurité sur les chantiers avec YOLO11

Les chantiers de construction sont des environnements rapides et imprévisibles, remplis de machines lourdes, de travailleurs en mouvement et d'une activité constante. Les conditions peuvent changer rapidement en raison d'horaires décalés, de mouvements d'équipements ou même de changements météorologiques soudains. Dans un environnement aussi dynamique, la sécurité des travailleurs peut être perçue comme un défi permanent.

La surveillance en temps réel joue un rôle crucial, mais les systèmes traditionnels dépendent souvent d'un accès au nuage ou d'un matériel coûteux qui n'est pas toujours pratique sur place. C'est là que des modèles comme YOLO11 peuvent avoir un impact. YOLO11 peut être optimisé pour fonctionner sur de petits appareils périphériques efficaces qui fonctionnent directement sur le site sans avoir besoin d'une connexion internet.

Prenons l'exemple d'un grand chantier de construction, tel que l'élargissement d'une autoroute, qui s'étend sur plusieurs hectares. Dans ce type d'environnement, le suivi manuel de chaque véhicule ou pièce d'équipement peut s'avérer difficile et chronophage. Un drone équipé d'une caméra et d'un modèle YOLO11 optimisé peut aider en détectant et en suivant automatiquement les véhicules, en surveillant le flux de circulation et en identifiant les problèmes de sécurité tels que les accès non autorisés ou les comportements de conduite dangereux.

Fig. 5. Analyse d'images de drone provenant d'un chantier de construction.(Source)

Avantages et inconvénients de l'élagage et de la quantification en vision artificielle

Voici quelques avantages clés qu'offrent les méthodes d'optimisation des modèles de vision par ordinateur telles que l'élagage et la quantification :

  • Un déploiement rentable : Des modèles plus petits et plus efficaces peuvent réduire le besoin de matériel haut de gamme coûteux, rendant l'IA plus accessible et évolutive dans différents cas d'utilisation.

  • Diminution de la latence : En simplifiant l'architecture du modèle et en réduisant la charge de calcul, ces techniques permettent d'obtenir des temps de réponse plus rapides dans les applications en temps réel.

  • Efficacité énergétique : La réduction de la charge de calcul diminue également la consommation d'énergie, ce qui est particulièrement utile pour les systèmes alimentés par batterie ou mobiles.

Si l'élagage et la quantification offrent de nombreux avantages, ils s'accompagnent également de certains compromis que les développeurs doivent prendre en compte lors de l'optimisation des modèles. Voici quelques limitations à garder à l'esprit :

  • Compromis de précision Il y a des compromis à faire : Si l'élagage est trop agressif ou si l'on utilise une quantification sur des bits très faibles, la précision du modèle, mesurée par des paramètres tels que mAP, peut diminuer.

  • Contraintes matérielles : Tous les appareils ne supportent pas de la même manière les formats de moindre précision tels que INT8. Cela peut restreindre les possibilités de déploiement d'un modèle optimisé.

  • la complexité de la mise en œuvre : Pour obtenir de bons résultats, il faut souvent procéder à un réglage minutieux et spécifique du modèle. Les développeurs peuvent être amenés à réapprendre le modèle et à effectuer des tests approfondis pour maintenir les performances tout en améliorant l'efficacité.

Principaux enseignements

L'élagage et la quantification sont des techniques utiles qui permettent aux modèles YOLO d'être plus performants sur les appareils périphériques. Elles réduisent la taille du modèle, diminuent ses besoins informatiques et accélèrent les prédictions, le tout sans perte notable de précision.

Ces méthodes d'optimisation offrent également aux développeurs la possibilité d'adapter les modèles à différents types de matériel sans avoir à les reconstruire entièrement. Après quelques réglages et tests, il devient plus facile d'appliquer Vision AI dans des situations réelles.

Rejoignez notre communauté grandissante ! Explorez notre dépôt GitHub pour en savoir plus sur l'IA. Prêt à démarrer vos projets de vision par ordinateur ? Consultez nos options de licence. Découvrez l'IA dans l'agriculture et l'IA de vision dans les soins de santé en visitant nos pages de solutions ! 

Construisons ensemble le futur
de l'IA !

Commencez votre voyage avec l'avenir de l'apprentissage automatique

Commencer gratuitement
Lien copié dans le presse-papiers