Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Entraînement sensible à la quantification (QAT)

Optimisez les modèles d'IA pour les appareils périphériques grâce à l'entraînement sensible à la quantification (QAT), garantissant une précision et une efficacité élevées dans les environnements aux ressources limitées.

Le Quantization-Aware Training (QAT) est une technique d'optimisation de modèles technique sophistiquée d'optimisation des modèles d'optimisation de modèle sophistiquée conçue pour préparer les réseaux neuronaux à être déployés sur du matériel aux ressources de calcul limitées. pour le déploiement sur du matériel avec des ressources de calcul limitées. Alors que les modèles d'apprentissage profond standard traitent généralement les données à l'aide données à l'aide de nombres à virgule flottante 32 bits de haute précision (FP32), de nombreux dispositifs d'IA de pointe exigent une précision moindre, comme des nombres entiers 8 bits (INT8), afin d'économiser de la mémoire et de l'énergie. QAT s'attaque à la perte de précision souvent causée par cette conversion en en simulant les effets de la quantification pendant la phase de phase d'apprentissage elle-même. Cette approche proactive permet au modèle d'ajuster ses poids pour tenir compte de la perte de précision. Cette approche proactive permet au modèle d'ajuster ses poids pour tenir compte de la perte de précision, ce qui permet d'obtenir des modèles très efficaces qui conservent leur performance prédictive.

Comment fonctionne le QAT

Le mécanisme central de l'apprentissage conscient de la quantification consiste à insérer de "faux" nœuds de quantification dans l'architecture du modèle au cours de l'apprentissage. dans l'architecture du modèle pendant l'apprentissage. Ces nœuds modélisent les erreurs d'arrondi et de serrage qui se produisent lors de la conversion des valeurs FP32 en INT8. FP32 en INT8. Au cours de la passe avant, le modèle fonctionne comme s'il était quantifié, tandis que la passe arrière - utilisant la rétropropagation - augmente le nombre de nœuds de quantification. rétropropagation - met à jourles poids avec une haute précision pour compenser les erreurs simulées.

Ce processus permet essentiellement d'affiner le modèle pour qu'il soit robuste face au bruit introduit par une précision réduite. Les principaux comme PyTorch et TensorFlow fournissent des spécialisées pour faciliter ce flux de travail. En intégrant ces contraintes dès le début, le modèle final exporté est beaucoup mieux aligné avec les capacités du matériel cible, comme celles que l'on trouve dans les ordinateurs. mieux aligné sur les capacités matérielles cibles, telles que celles trouvées dans les systèmes embarqués.

Différence par rapport à la quantification post-entraînement

Il est important de distinguer la QAT de la quantification post-entraînement (PTQ), car ils ont des objectifs objectifs similaires mais diffèrent dans leur exécution :

  • Quantification post-entraînement (PTQ) : Appliquée après que le modèle a été entièrement entraîné. Elle analyse un Il analyse un petit ensemble de données d'étalonnage pour faire correspondre les valeurs à virgule flottante à des nombres entiers. Bien que rapide et facile à mettre en œuvre, la PTQ peut parfois conduire à une dégradation significative de la précision dans les modèles sensibles. modèles sensibles.
  • Formation tenant compte de la quantification (QAT) : Incorpore la quantification dans le processus d'entraînement ou de processus d'apprentissage ou de réglage fin. Il est plus intensif en termes de calcul que le PTQ, mais il offre généralement une précision supérieure. de calcul que le PTQ mais donne généralement une précision supérieure, ce qui en fait le choix privilégié pour déployer des modèles de pointe tels que le PTQ et le PTQ. modèles de pointe comme Ultralytics YOLO11 dans des dans des scénarios critiques.

Applications concrètes

Le QAT est essentiel pour les industries où la latence de l'inférence et la consommation d'énergie facteurs critiques.

  1. Conduite autonome : Les véhicules s'appuient sur la vision par ordinateur pour des tâches telles que la détection des piétons et le suivi des voies. Ces systèmes fonctionnent souvent sur du matériel spécialisé comme les modules NVIDIA Jetson. QAT garantit que les modèles restent suffisamment précis pour assurer la sécurité tout en étant assez rapides pour permettre une prise de décision en temps réel.
  2. Soins de santé mobiles : Les appareils de diagnostic portables utilisent souvent la classification des images pour analyser les médicaux. Grâce à QAT, les développeurs peuvent déployer des modèles d'IA robustes sur des processeurs mobiles, tels que les puces Snapdragon de Qualcomm, ce qui permet des diagnostics avancés sans épuiser la batterie de l'appareil.

Mise en œuvre de la quantification avec Ultralytics

Alors que les pipelines de TAQ complets impliquent souvent des configurations de formation spécifiques, la ultralytics bibliothèque rationalise le processus d'exportation pour produire des modèles quantifiés prêts à être déployés. L'exemple suivant montre comment exporter un modèle YOLO11 vers TFLite avec une quantification INT8, le préparant à une exécution efficace des bords.

from ultralytics import YOLO

# Load the YOLO11 model (latest stable version)
model = YOLO("yolo11n.pt")

# Export to TFLite with INT8 quantization
# This creates a compact model optimized for edge devices
model.export(format="tflite", int8=True)

Intégration avec d'autres méthodes d'optimisation

Pour une efficacité maximale, le QAT est souvent combiné avec d'autres techniques de déploiement de modèles. L 'élagage du modèle supprime les connexions redondantes avant la avant la quantification, ce qui réduit encore la taille du modèle. En outre, distillation des connaissances peut être utilisée pour un modèle étudiant compact, qui est ensuite affiné à l'aide de QAT. Les modèles quantifiés finaux sont compatibles avec avec des moteurs d'exécution à haute performance comme ONNX Runtime et OpenVINOgarantissant une large compatibilité sur diverses plates-formes matérielles de Intel à Google Coral.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant