Optimisez les modèles d'IA pour les appareils périphériques grâce à l'apprentissage par quantification (QAT), en garantissant une précision et une efficacité élevées dans les environnements à ressources limitées.
La formation tenant compte de la quantification (QAT) est une technique avancée d'optimisation des modèles qui prépare un réseau neuronal (NN) à être déployé avec une précision numérique inférieure. Contrairement à la formation standard qui utilise des nombres à virgule flottante de 32 bits (FP32), la QAT simule les effets des calculs sur les nombres entiers de 8 bits (INT8) pendant le processus de formation ou de réglage fin. En rendant le modèle "conscient" des erreurs de quantification qu'il rencontrera au cours de l'inférence, QAT lui permet d'ajuster ses poids afin de minimiser la perte potentielle de précision. Il en résulte un modèle compact et efficace qui conserve des performances élevées, ce qui le rend idéal pour un déploiement sur du matériel aux ressources limitées.
Le processus QAT commence généralement par un modèle FP32 pré-entraîné. De "faux" nœuds de quantification sont insérés dans l'architecture du modèle, qui imitent l'effet de la conversion des valeurs à virgule flottante en entiers de précision inférieure et vice-versa. Le modèle est ensuite réentraîné sur un ensemble de données d'entraînement. Au cours de cette phase de réentraînement, le modèle apprend à s'adapter à la perte d'information associée à la quantification par le biais d'une rétropropagation standard. Cela permet au modèle de trouver un ensemble de poids plus robuste qui est moins sensible à la réduction de la précision. Les principaux cadres d'apprentissage profond tels que PyTorch et TensorFlow offrent des outils et des API robustes pour mettre en œuvre les flux de travail de l'EAQ.
La QAT est souvent comparée à la quantification post-entraînement (PTQ), une autre méthode courante de quantification des modèles. La principale différence réside dans le moment où la quantification est appliquée.
La formation basée sur la quantification est essentielle pour déployer des modèles d'IA sophistiqués dans des environnements où les ressources sont limitées et où l'efficacité est primordiale.
Le QAT est l'une des nombreuses techniques d'optimisation du déploiement des modèles et est souvent utilisé avec d'autres pour une efficacité maximale.
Ultralytics prend en charge l'exportation de modèles vers divers formats tels que ONNX, TensorRT et TFLite, qui sont compatibles avec les flux de travail QAT, ce qui permet un déploiement efficace sur divers matériels d'entreprises telles qu'Intel et NVIDIA. Vous pouvez gérer et déployer vos modèles optimisés par QAT en utilisant des plateformes comme Ultralytics HUB. Il est essentiel d'évaluer les performances du modèle à l'aide de mesures pertinentes après le QAT pour s'assurer que les exigences en matière de précision sont respectées.