Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Quantization-Aware Training (QAT)

Ottimizza i modelli di AI per i dispositivi edge con il Quantization-Aware Training (QAT), garantendo elevata precisione ed efficienza in ambienti con risorse limitate.

L'addestramento con consapevolezza della quantizzazione (QAT, Quantization-Aware Training) è una tecnica avanzata di ottimizzazione del modello che prepara una rete neurale (NN) per il deployment con una precisione numerica inferiore. A differenza dell'addestramento standard che utilizza numeri in virgola mobile a 32 bit (FP32), QAT simula gli effetti dei calcoli interi a 8 bit (INT8) durante il processo di addestramento o fine-tuning. Rendendo il modello "consapevole" degli errori di quantizzazione che incontrerà durante l'inferenza, QAT consente al modello di regolare i suoi pesi per ridurre al minimo la potenziale perdita di accuratezza. Ciò si traduce in un modello compatto ed efficiente che mantiene prestazioni elevate, rendendolo ideale per il deployment su hardware con risorse limitate.

Come funziona il Quantization-Aware Training

Il processo QAT inizia in genere con un modello FP32 pre-addestrato. Nodi di quantizzazione "fittizi" vengono inseriti nell'architettura del modello, simulando l'effetto della conversione di valori in virgola mobile in interi a precisione inferiore e viceversa. Il modello viene quindi riaddestrato su un dataset di training. Durante questa fase di riaddestramento, il modello impara ad adattarsi alla perdita di informazioni associata alla quantizzazione attraverso la backpropagation standard. Ciò consente al modello di trovare un insieme di pesi più robusto e meno sensibile alla precisione ridotta. I principali framework di deep learning come PyTorch e TensorFlow offrono strumenti e API affidabili per implementare flussi di lavoro QAT.

QAT vs. Quantizzazione Post-Training

QAT viene spesso confrontato con la quantizzazione post-training (PTQ), un altro metodo comune di quantizzazione del modello. La differenza fondamentale sta nel momento in cui viene applicata la quantizzazione.

  • Quantizzazione post-training (PTQ): Questo metodo viene applicato dopo che il modello è stato completamente addestrato. È un processo più semplice e veloce che non richiede il riaddestramento o l'accesso ai dati di addestramento originali. Tuttavia, a volte può portare a un calo significativo dell'accuratezza del modello, specialmente per i modelli sensibili.
  • Quantization-Aware Training (QAT): Questo metodo integra la quantizzazione nel ciclo di addestramento. Sebbene sia più intensivo dal punto di vista computazionale e richieda l'accesso ai dati di addestramento, QAT si traduce quasi sempre in una maggiore accuratezza per il modello quantizzato finale rispetto a PTQ. È il metodo preferito quando massimizzare le prestazioni è fondamentale.

Applicazioni nel mondo reale di QAT

Il Quantization-Aware Training è fondamentale per distribuire modelli AI sofisticati in ambienti con risorse limitate dove l'efficienza è fondamentale.

  1. Computer Vision On-Device: Esecuzione di modelli complessi di computer vision come Ultralytics YOLOv8 direttamente su smartphone per applicazioni come l'object detection in tempo reale in app di realtà aumentata o la classificazione delle immagini all'interno di strumenti di gestione delle foto. La QAT consente a questi modelli di funzionare in modo efficiente senza un significativo consumo della batteria o latenza.
  2. Edge AI nel settore automobilistico e nella robotica: Implementazione di modelli per attività come il rilevamento di pedoni o il mantenimento della corsia di marcia nei veicoli autonomi o per la manipolazione di oggetti nella robotica. La QAT consente a questi modelli di funzionare su hardware specializzato come le Google Edge TPU o NVIDIA Jetson, garantendo una bassa latenza di inferenza per decisioni critiche in tempo reale. Questo è fondamentale per applicazioni come i sistemi di allarme di sicurezza o la gestione dei parcheggi.

Relazione con Altre Tecniche di Ottimizzazione

QAT è una delle diverse tecniche per l'ottimizzazione del deployment del modello e viene spesso utilizzata insieme ad altre per la massima efficienza.

  • Model Pruning: Consiste nella rimozione di connessioni ridondanti o non importanti dalla rete. Un modello può essere potato prima e poi sottoposto a QAT per ottenere una compressione ancora maggiore.
  • Knowledge Distillation: Addestra un modello "studente" più piccolo per imitare un modello "insegnante" più grande. Il modello studente risultante può quindi essere ulteriormente ottimizzato utilizzando QAT.

Ultralytics supporta l'esportazione di modelli in vari formati come ONNX, TensorRT e TFLite, che sono compatibili con i flussi di lavoro QAT, consentendo un deployment efficiente su diversi hardware di aziende come Intel e NVIDIA. Puoi gestire e distribuire i tuoi modelli ottimizzati per QAT utilizzando piattaforme come Ultralytics HUB. La valutazione delle prestazioni del modello utilizzando metriche rilevanti dopo QAT è essenziale per garantire che i requisiti di accuratezza siano soddisfatti.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti