Ottimizza i modelli di AI per i dispositivi edge con il Quantization-Aware Training (QAT), garantendo elevata precisione ed efficienza in ambienti con risorse limitate.
L'addestramento con consapevolezza della quantizzazione (QAT, Quantization-Aware Training) è una tecnica avanzata di ottimizzazione del modello che prepara una rete neurale (NN) per il deployment con una precisione numerica inferiore. A differenza dell'addestramento standard che utilizza numeri in virgola mobile a 32 bit (FP32), QAT simula gli effetti dei calcoli interi a 8 bit (INT8) durante il processo di addestramento o fine-tuning. Rendendo il modello "consapevole" degli errori di quantizzazione che incontrerà durante l'inferenza, QAT consente al modello di regolare i suoi pesi per ridurre al minimo la potenziale perdita di accuratezza. Ciò si traduce in un modello compatto ed efficiente che mantiene prestazioni elevate, rendendolo ideale per il deployment su hardware con risorse limitate.
Il processo QAT inizia in genere con un modello FP32 pre-addestrato. Nodi di quantizzazione "fittizi" vengono inseriti nell'architettura del modello, simulando l'effetto della conversione di valori in virgola mobile in interi a precisione inferiore e viceversa. Il modello viene quindi riaddestrato su un dataset di training. Durante questa fase di riaddestramento, il modello impara ad adattarsi alla perdita di informazioni associata alla quantizzazione attraverso la backpropagation standard. Ciò consente al modello di trovare un insieme di pesi più robusto e meno sensibile alla precisione ridotta. I principali framework di deep learning come PyTorch e TensorFlow offrono strumenti e API affidabili per implementare flussi di lavoro QAT.
QAT viene spesso confrontato con la quantizzazione post-training (PTQ), un altro metodo comune di quantizzazione del modello. La differenza fondamentale sta nel momento in cui viene applicata la quantizzazione.
Il Quantization-Aware Training è fondamentale per distribuire modelli AI sofisticati in ambienti con risorse limitate dove l'efficienza è fondamentale.
QAT è una delle diverse tecniche per l'ottimizzazione del deployment del modello e viene spesso utilizzata insieme ad altre per la massima efficienza.
Ultralytics supporta l'esportazione di modelli in vari formati come ONNX, TensorRT e TFLite, che sono compatibili con i flussi di lavoro QAT, consentendo un deployment efficiente su diversi hardware di aziende come Intel e NVIDIA. Puoi gestire e distribuire i tuoi modelli ottimizzati per QAT utilizzando piattaforme come Ultralytics HUB. La valutazione delle prestazioni del modello utilizzando metriche rilevanti dopo QAT è essenziale per garantire che i requisiti di accuratezza siano soddisfatti.