Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Quantification de modèle

Optimisez les performances de l'IA grâce à la quantification des modèles. Réduisez la taille, augmentez la vitesse et améliorez l'efficacité énergétique pour les déploiements dans le monde réel.

La quantification de modèle est une technique puissante d'optimisation de modèle qui réduit l'empreinte mémoire et le coût de calcul d'un réseau neuronal (NN) en convertissant ses poids et ses activations de nombres à virgule flottante de haute précision (comme float 32 bits ou FP32) en types de données de plus faible précision, tels que les entiers 8 bits (INT8). Ce processus rend les modèles considérablement plus petits et plus rapides, permettant leur déploiement sur du matériel aux ressources limitées comme les téléphones mobiles et les systèmes embarqués. L'objectif principal est d'améliorer les performances, en particulier la latence d'inférence, avec un impact minimal sur la précision prédictive du modèle.

Comment fonctionne la quantification de modèle

Le processus de quantification implique de mapper la plage continue de valeurs à virgule flottante dans un modèle entraîné à un ensemble discret plus petit de valeurs entières. Cette conversion réduit le nombre de bits nécessaires pour stocker chaque paramètre, réduisant ainsi la taille globale du modèle. De plus, les calculs utilisant des entiers de plus faible précision sont beaucoup plus rapides sur de nombreux CPU modernes et des accélérateurs d'IA spécialisés comme les GPU et les TPU, qui ont des instructions dédiées à l'arithmétique entière.

Il existe deux méthodes principales pour appliquer la quantification :

  1. Quantification Post-Entraînement (PTQ) : Il s'agit de l'approche la plus simple, où un modèle déjà entraîné est converti dans un format de plus faible précision. C'est un processus rapide qui consiste à analyser la distribution des poids et des activations sur un petit ensemble de données d'étalonnage afin de déterminer le mappage optimal du format flottant vers le format entier.
  2. Entraînement sensible à la quantification (QAT) : Dans cette méthode, le modèle est entraîné ou affiné tout en simulant les effets de la quantification. Le passage direct du processus d'entraînement imite l'inférence quantifiée, ce qui permet au modèle de s'adapter à la précision réduite. Le QAT donne souvent une plus grande précision que le PTQ, car le modèle apprend à compenser la perte potentielle d'informations pendant la phase d'entraînement. Les frameworks tels que PyTorch et TensorFlow fournissent des outils robustes pour la mise en œuvre du QAT.

Applications concrètes

La quantification est essentielle pour exécuter des modèles de vision par ordinateur sophistiqués dans des scénarios réels, en particulier sur les appareils Edge AI.

  • Analyse d'image sur l'appareil : De nombreuses applications pour smartphone utilisent des modèles quantifiés pour des fonctionnalités en temps réel. Par exemple, une application fournissant une détection d'objets en direct via la caméra, comme l'identification de produits ou de points de repère, repose sur un modèle quantifié comme Ultralytics YOLO11 pour fonctionner efficacement sur le matériel du téléphone sans vider la batterie ni nécessiter une connexion cloud.
  • Automobile et robotique : Dans les véhicules autonomes, les modèles de détection des piétons et de maintien de la trajectoire doivent fonctionner avec une latence extrêmement faible. La quantification de ces modèles leur permet de fonctionner sur du matériel spécialisé tel que NVIDIA Jetson ou Google Coral Edge TPU, garantissant ainsi que les décisions sont prises en quelques fractions de seconde, ce qui est essentiel pour la sécurité.

Quantification vs. Autres techniques d'optimisation

La quantification de modèle est souvent utilisée en parallèle avec d'autres méthodes d'optimisation, mais se distingue par son approche.

  • Élagage de modèle : Cette technique supprime les connexions (poids) redondantes ou non importantes au sein du réseau neuronal afin de réduire sa taille et sa complexité. Alors que l'élagage réduit la taille du réseau en supprimant des parties de celui-ci, la quantification rend les parties restantes plus efficaces en réduisant leur précision numérique. Les deux sont souvent combinés pour une optimisation maximale.
  • Distillation des connaissances: Ceci implique l'entraînement d'un plus petit modèle "étudiant" pour imiter un plus grand modèle "enseignant" pré-entraîné. Le but est de transférer les connaissances de l'enseignant à une architecture plus compacte. Ceci diffère de la quantification, qui modifie la représentation numérique d'un modèle existant plutôt que d'en entraîner un nouveau.
  • Précision mixte : Cette technique utilise une combinaison de différentes précisions numériques (par exemple, FP16 et FP32) pendant l'entraînement du modèle pour accélérer le processus et réduire l'utilisation de la mémoire. Bien qu'elle soit liée, il s'agit principalement d'une optimisation de l'entraînement, tandis que la quantification est généralement axée sur l'optimisation du modèle pour l'inférence.

Considérations et support

Bien que très avantageuse, la quantification peut potentiellement avoir un impact sur la précision du modèle. Il est essentiel d'effectuer une évaluation approfondie à l'aide de métriques de performance pertinentes après la quantification afin de s'assurer que le compromis de performance est acceptable.

Ultralytics facilite le déploiement de modèles quantifiés en prenant en charge l'exportation vers des formats adaptés à la quantification. Ceux-ci incluent ONNX pour une large compatibilité, OpenVINO pour l'optimisation sur le matériel Intel, et TensorRT pour des performances élevées sur les GPU NVIDIA. Des plateformes comme Ultralytics HUB peuvent aider à gérer l'ensemble du cycle de vie, de la formation au déploiement de modèles optimisés. Les intégrations avec des outils comme Neural Magic tirent également parti de la quantification et de l'élagage pour atteindre des performances de classe GPU sur les CPU.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers