Glossaire

Formation consciente de la quantification (QAT)

Optimisez les modèles d'IA pour les appareils périphériques grâce à l'apprentissage par quantification (QAT), en garantissant une précision et une efficacité élevées dans les environnements à ressources limitées.

La formation tenant compte de la quantification (QAT) est une technique avancée d'optimisation des modèles qui prépare un réseau neuronal (NN) à être déployé avec une précision numérique inférieure. Contrairement à la formation standard qui utilise des nombres à virgule flottante de 32 bits (FP32), la QAT simule les effets des calculs sur les nombres entiers de 8 bits (INT8) pendant le processus de formation ou de réglage fin. En rendant le modèle "conscient" des erreurs de quantification qu'il rencontrera au cours de l'inférence, QAT lui permet d'ajuster ses poids afin de minimiser la perte potentielle de précision. Il en résulte un modèle compact et efficace qui conserve des performances élevées, ce qui le rend idéal pour un déploiement sur du matériel aux ressources limitées.

Fonctionnement de la formation basée sur la quantification

Le processus QAT commence généralement par un modèle FP32 pré-entraîné. De "faux" nœuds de quantification sont insérés dans l'architecture du modèle, qui imitent l'effet de la conversion des valeurs à virgule flottante en entiers de précision inférieure et vice-versa. Le modèle est ensuite réentraîné sur un ensemble de données d'entraînement. Au cours de cette phase de réentraînement, le modèle apprend à s'adapter à la perte d'information associée à la quantification par le biais d'une rétropropagation standard. Cela permet au modèle de trouver un ensemble de poids plus robuste qui est moins sensible à la réduction de la précision. Les principaux cadres d'apprentissage profond tels que PyTorch et TensorFlow offrent des outils et des API robustes pour mettre en œuvre les flux de travail de l'EAQ.

QAT vs. quantification post-entraînement

La QAT est souvent comparée à la quantification post-entraînement (PTQ), une autre méthode courante de quantification des modèles. La principale différence réside dans le moment où la quantification est appliquée.

  • Quantification post-entraînement (PTQ) : Cette méthode est appliquée après que le modèle a été entièrement formé. Il s'agit d'un processus plus simple et plus rapide qui ne nécessite pas de réentraînement ni d'accès aux données d'entraînement d'origine. Cependant, elle peut parfois entraîner une baisse significative de la précision du modèle, en particulier pour les modèles sensibles.
  • Formation consciente de la quantification (QAT) : Cette méthode intègre la quantification dans la boucle d'apprentissage. Bien qu'elle soit plus exigeante en termes de calcul et qu'elle nécessite l'accès à des données d'apprentissage, la QAT se traduit presque toujours par une plus grande précision du modèle quantifié final par rapport à la PTQ. Il s'agit de la méthode préférée lorsqu'il est essentiel de maximiser les performances.

Applications concrètes de la TAQ

La formation basée sur la quantification est essentielle pour déployer des modèles d'IA sophistiqués dans des environnements où les ressources sont limitées et où l'efficacité est primordiale.

  1. Vision par ordinateur sur l'appareil : Exécuter des modèles complexes de vision par ordinateur comme Ultralytics YOLOv8 directement sur les smartphones pour des applications telles que la détection d'objets en temps réel dans les applications de réalité augmentée ou la classification d'images dans les outils de gestion de photos. QAT permet à ces modèles de fonctionner efficacement sans perte de batterie ni latence significative.
  2. L'IA de pointe dans l'automobile et la robotique : Déploiement de modèles pour des tâches telles que la détection de piétons ou l'assistance au maintien de la trajectoire dans les véhicules autonomes, ou pour la manipulation d'objets en robotique. QAT permet à ces modèles de fonctionner sur du matériel spécialisé comme les Google Edge TPU ou les NVIDIA Jetson, garantissant une faible latence d'inférence pour les décisions critiques en temps réel. Ceci est crucial pour des applications telles que les systèmes d'alarme de sécurité ou la gestion des parkings.

Relations avec d'autres techniques d'optimisation

Le QAT est l'une des nombreuses techniques d'optimisation du déploiement des modèles et est souvent utilisé avec d'autres pour une efficacité maximale.

  • Élagage du modèle: Il s'agit de supprimer les connexions redondantes ou sans importance du réseau. Un modèle peut être élagué dans un premier temps, puis soumis à un QAT afin d'obtenir une compression encore plus importante.
  • Distillation des connaissances: Entraîne un modèle "étudiant" plus petit à imiter un modèle "enseignant" plus grand. Le modèle étudiant qui en résulte peut ensuite être optimisé à l'aide de QAT.

Ultralytics prend en charge l'exportation de modèles vers divers formats tels que ONNX, TensorRT et TFLite, qui sont compatibles avec les flux de travail QAT, ce qui permet un déploiement efficace sur divers matériels d'entreprises telles qu'Intel et NVIDIA. Vous pouvez gérer et déployer vos modèles optimisés par QAT en utilisant des plateformes comme Ultralytics HUB. Il est essentiel d'évaluer les performances du modèle à l'aide de mesures pertinentes après le QAT pour s'assurer que les exigences en matière de précision sont respectées.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers