Optimisez les modèles d'IA pour les appareils périphériques grâce à l'entraînement sensible à la quantification (QAT), garantissant une précision et une efficacité élevées dans les environnements aux ressources limitées.
Le Quantization-Aware Training (QAT) est une technique d'optimisation de modèles technique sophistiquée d'optimisation des modèles d'optimisation de modèle sophistiquée conçue pour préparer les réseaux neuronaux à être déployés sur du matériel aux ressources de calcul limitées. pour le déploiement sur du matériel avec des ressources de calcul limitées. Alors que les modèles d'apprentissage profond standard traitent généralement les données à l'aide données à l'aide de nombres à virgule flottante 32 bits de haute précision (FP32), de nombreux dispositifs d'IA de pointe exigent une précision moindre, comme des nombres entiers 8 bits (INT8), afin d'économiser de la mémoire et de l'énergie. QAT s'attaque à la perte de précision souvent causée par cette conversion en en simulant les effets de la quantification pendant la phase de phase d'apprentissage elle-même. Cette approche proactive permet au modèle d'ajuster ses poids pour tenir compte de la perte de précision. Cette approche proactive permet au modèle d'ajuster ses poids pour tenir compte de la perte de précision, ce qui permet d'obtenir des modèles très efficaces qui conservent leur performance prédictive.
Le mécanisme central de l'apprentissage conscient de la quantification consiste à insérer de "faux" nœuds de quantification dans l'architecture du modèle au cours de l'apprentissage. dans l'architecture du modèle pendant l'apprentissage. Ces nœuds modélisent les erreurs d'arrondi et de serrage qui se produisent lors de la conversion des valeurs FP32 en INT8. FP32 en INT8. Au cours de la passe avant, le modèle fonctionne comme s'il était quantifié, tandis que la passe arrière - utilisant la rétropropagation - augmente le nombre de nœuds de quantification. rétropropagation - met à jourles poids avec une haute précision pour compenser les erreurs simulées.
Ce processus permet essentiellement d'affiner le modèle pour qu'il soit robuste face au bruit introduit par une précision réduite. Les principaux comme PyTorch et TensorFlow fournissent des spécialisées pour faciliter ce flux de travail. En intégrant ces contraintes dès le début, le modèle final exporté est beaucoup mieux aligné avec les capacités du matériel cible, comme celles que l'on trouve dans les ordinateurs. mieux aligné sur les capacités matérielles cibles, telles que celles trouvées dans les systèmes embarqués.
Il est important de distinguer la QAT de la quantification post-entraînement (PTQ), car ils ont des objectifs objectifs similaires mais diffèrent dans leur exécution :
Le QAT est essentiel pour les industries où la latence de l'inférence et la consommation d'énergie facteurs critiques.
Alors que les pipelines de TAQ complets impliquent souvent des configurations de formation spécifiques, la ultralytics bibliothèque
rationalise le processus d'exportation pour produire des modèles quantifiés prêts à être déployés. L'exemple suivant montre
comment exporter un modèle YOLO11 vers TFLite avec une quantification INT8,
le préparant à une exécution efficace des bords.
from ultralytics import YOLO
# Load the YOLO11 model (latest stable version)
model = YOLO("yolo11n.pt")
# Export to TFLite with INT8 quantization
# This creates a compact model optimized for edge devices
model.export(format="tflite", int8=True)
Pour une efficacité maximale, le QAT est souvent combiné avec d'autres techniques de déploiement de modèles. L 'élagage du modèle supprime les connexions redondantes avant la avant la quantification, ce qui réduit encore la taille du modèle. En outre, distillation des connaissances peut être utilisée pour un modèle étudiant compact, qui est ensuite affiné à l'aide de QAT. Les modèles quantifiés finaux sont compatibles avec avec des moteurs d'exécution à haute performance comme ONNX Runtime et OpenVINOgarantissant une large compatibilité sur diverses plates-formes matérielles de Intel à Google Coral.