Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Entraînement sensible à la quantification (QAT)

Optimisez les modèles d'IA pour les appareils périphériques grâce à l'entraînement sensible à la quantification (QAT), garantissant une précision et une efficacité élevées dans les environnements aux ressources limitées.

L'entraînement sensible à la quantification (QAT) est une technique avancée d'optimisation de modèle qui prépare un réseau neuronal (NN) au déploiement avec une précision numérique inférieure. Contrairement à l'entraînement standard qui utilise des nombres à virgule flottante de 32 bits (FP32), la QAT simule les effets des calculs d'entiers de 8 bits (INT8) pendant le processus d'entraînement ou de réglage fin. En rendant le modèle "conscient" des erreurs de quantification qu'il rencontrera pendant l'inférence, la QAT permet au modèle d'ajuster ses poids afin de minimiser la perte potentielle de précision. Il en résulte un modèle compact et efficace qui maintient des performances élevées, ce qui le rend idéal pour le déploiement sur du matériel aux ressources limitées.

Comment fonctionne l'apprentissage par quantification

Le processus QAT commence généralement avec un modèle FP32 pré-entraîné. Des nœuds de quantification « factices » sont insérés dans l'architecture du modèle, ce qui imite l'effet de la conversion des valeurs à virgule flottante en entiers de plus faible précision et inversement. Le modèle est ensuite réentraîné sur un ensemble de données d'entraînement. Pendant cette phase de réentraînement, le modèle apprend à s'adapter à la perte d'informations associée à la quantification grâce à la rétropropagation standard. Cela permet au modèle de trouver un ensemble de poids plus robuste, moins sensible à la précision réduite. Les principaux frameworks d'apprentissage profond tels que PyTorch et TensorFlow offrent des outils et des API robustes pour mettre en œuvre les flux de travail QAT.

QAT vs. Quantification post-entraînement

La QAT est souvent comparée à la quantification post-entraînement (PTQ), une autre méthode courante de quantification de modèle. La principale différence réside dans le moment où la quantification est appliquée.

  • Quantification Post-Entraînement (PTQ) : Cette méthode est appliquée après que le modèle a été entièrement entraîné. C'est un processus plus simple et plus rapide qui ne nécessite pas de réentraînement ni d'accès aux données d'entraînement originales. Cependant, elle peut parfois entraîner une baisse significative de la précision du modèle, en particulier pour les modèles sensibles.
  • Entraînement sensible à la quantification (QAT) : Cette méthode intègre la quantification dans la boucle d'entraînement. Bien qu'elle soit plus gourmande en calcul et nécessite un accès aux données d'entraînement, la QAT se traduit presque toujours par une plus grande précision pour le modèle quantifié final par rapport à la PTQ. C'est la méthode préférée lorsque la maximisation des performances est essentielle.

Applications concrètes de la QAT

L'entraînement sensible à la quantification est essentiel pour déployer des modèles d'IA sophistiqués dans des environnements aux ressources limitées où l'efficacité est essentielle.

  1. Vision par ordinateur sur l'appareil : Exécution de modèles complexes de vision par ordinateur comme Ultralytics YOLOv8 directement sur les smartphones pour des applications comme la détection d'objets en temps réel dans les applications de réalité augmentée ou la classification d'images dans les outils de gestion de photos. La QAT permet à ces modèles de fonctionner efficacement sans épuisement important de la batterie ni latence.
  2. IA en périphérie dans l’automobile et la robotique : Déploiement de modèles pour des tâches telles que la détection de piétons ou l’aide au maintien de la trajectoire dans les véhicules autonomes ou pour la manipulation d’objets en robotique. La QAT permet à ces modèles de fonctionner sur du matériel spécialisé comme les Google Edge TPU ou NVIDIA Jetson, assurant une faible latence d’inférence pour les décisions critiques en temps réel. Ceci est crucial pour des applications telles que les systèmes d’alarme de sécurité ou la gestion du stationnement.

Relation avec d'autres techniques d'optimisation

La QAT est l'une des nombreuses techniques d'optimisation du déploiement de modèles et est souvent utilisée en parallèle avec d'autres pour une efficacité maximale.

  • Élagage de modèle : Implique la suppression des connexions redondantes ou non importantes du réseau. Un modèle peut être élagué d'abord, puis subir une QAT pour obtenir une compression encore plus importante.
  • Distillation des connaissances: Entraîne un plus petit modèle "étudiant" pour imiter un plus grand modèle "enseignant". Le modèle étudiant résultant peut ensuite être optimisé davantage en utilisant QAT.

Ultralytics prend en charge l'exportation de modèles vers divers formats tels que ONNX, TensorRT et TFLite, qui sont compatibles avec les workflows QAT, permettant un déploiement efficace sur divers matériels de sociétés comme Intel et NVIDIA. Vous pouvez gérer et déployer vos modèles optimisés QAT à l'aide de plateformes comme Ultralytics HUB. L'évaluation des performances du modèle à l'aide de métriques pertinentes après QAT est essentielle pour garantir que les exigences de précision sont satisfaites.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers