Ottimizzate i modelli di intelligenza artificiale per i dispositivi edge con il Quantization-Aware Training (QAT), garantendo un'elevata precisione ed efficienza in ambienti con risorse limitate.
Il Quantization-Aware Training (QAT) è una tecnica avanzata di ottimizzazione del modello che prepara una rete neurale (NN) per l'impiego con una precisione numerica inferiore. A differenza dell'addestramento standard che utilizza numeri in virgola mobile a 32 bit (FP32), QAT simula gli effetti delle computazioni di numeri interi a 8 bit (INT8) durante il processo di addestramento o di messa a punto. Rendendo il modello "consapevole" degli errori di quantizzazione che incontrerà durante l'inferenza, QAT permette al modello di regolare i suoi pesi per minimizzare la potenziale perdita di precisione. Il risultato è un modello compatto ed efficiente che mantiene prestazioni elevate e che è ideale per l'impiego su hardware con risorse limitate.
Il processo QAT inizia tipicamente con un modello FP32 pre-addestrato. Nell'architettura del modello vengono inseriti dei "falsi" nodi di quantizzazione, che simulano l'effetto della conversione dei valori in virgola mobile in interi a bassa precisione e viceversa. Il modello viene quindi riqualificato su un set di dati di addestramento. Durante questa fase di riqualificazione, il modello impara ad adattarsi alla perdita di informazioni associata alla quantizzazione attraverso la retropropagazione standard. Ciò consente al modello di trovare un insieme di pesi più robusto, meno sensibile alla riduzione della precisione. I principali framework di deep learning, come PyTorch e TensorFlow, offrono strumenti e API robusti per implementare i flussi di lavoro QAT.
Il QAT viene spesso paragonato alla Quantizzazione post-addestramento (PTQ), un altro metodo comune di quantizzazione del modello. La differenza fondamentale sta nel momento in cui viene applicata la quantizzazione.
L'addestramento consapevole della quantizzazione è fondamentale per l'implementazione di modelli di intelligenza artificiale sofisticati in ambienti con risorse limitate, dove l'efficienza è fondamentale.
La QAT è una delle varie tecniche per l'ottimizzazione della distribuzione dei modelli e viene spesso utilizzata insieme ad altre per ottenere la massima efficienza.
Ultralytics supporta l'esportazione di modelli in vari formati come ONNX, TensorRT e TFLite, che sono compatibili con i flussi di lavoro QAT e consentono una distribuzione efficiente su diversi hardware di aziende come Intel e NVIDIA. È possibile gestire e distribuire i modelli ottimizzati per QAT utilizzando piattaforme come Ultralytics HUB. La valutazione delle prestazioni del modello mediante metriche pertinenti dopo QAT è essenziale per garantire il rispetto dei requisiti di accuratezza.