Optimisez les modèles d'IA pour les appareils périphériques grâce à l'entraînement sensible à la quantification (QAT), garantissant une précision et une efficacité élevées dans les environnements aux ressources limitées.
L'entraînement sensible à la quantification (QAT) est une technique avancée d'optimisation de modèle qui prépare un réseau neuronal (NN) au déploiement avec une précision numérique inférieure. Contrairement à l'entraînement standard qui utilise des nombres à virgule flottante de 32 bits (FP32), la QAT simule les effets des calculs d'entiers de 8 bits (INT8) pendant le processus d'entraînement ou de réglage fin. En rendant le modèle "conscient" des erreurs de quantification qu'il rencontrera pendant l'inférence, la QAT permet au modèle d'ajuster ses poids afin de minimiser la perte potentielle de précision. Il en résulte un modèle compact et efficace qui maintient des performances élevées, ce qui le rend idéal pour le déploiement sur du matériel aux ressources limitées.
Le processus QAT commence généralement avec un modèle FP32 pré-entraîné. Des nœuds de quantification « factices » sont insérés dans l'architecture du modèle, ce qui imite l'effet de la conversion des valeurs à virgule flottante en entiers de plus faible précision et inversement. Le modèle est ensuite réentraîné sur un ensemble de données d'entraînement. Pendant cette phase de réentraînement, le modèle apprend à s'adapter à la perte d'informations associée à la quantification grâce à la rétropropagation standard. Cela permet au modèle de trouver un ensemble de poids plus robuste, moins sensible à la précision réduite. Les principaux frameworks d'apprentissage profond tels que PyTorch et TensorFlow offrent des outils et des API robustes pour mettre en œuvre les flux de travail QAT.
La QAT est souvent comparée à la quantification post-entraînement (PTQ), une autre méthode courante de quantification de modèle. La principale différence réside dans le moment où la quantification est appliquée.
L'entraînement sensible à la quantification est essentiel pour déployer des modèles d'IA sophistiqués dans des environnements aux ressources limitées où l'efficacité est essentielle.
La QAT est l'une des nombreuses techniques d'optimisation du déploiement de modèles et est souvent utilisée en parallèle avec d'autres pour une efficacité maximale.
Ultralytics prend en charge l'exportation de modèles vers divers formats tels que ONNX, TensorRT et TFLite, qui sont compatibles avec les workflows QAT, permettant un déploiement efficace sur divers matériels de sociétés comme Intel et NVIDIA. Vous pouvez gérer et déployer vos modèles optimisés QAT à l'aide de plateformes comme Ultralytics HUB. L'évaluation des performances du modèle à l'aide de métriques pertinentes après QAT est essentielle pour garantir que les exigences de précision sont satisfaites.