Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024

Pruning e quantizzazione nella computer vision: una guida rapida

Abirami Vina

5 minuti di lettura

11 luglio 2025

Scopri perché la potatura e la quantizzazione sono essenziali per ottimizzare i modelli di computer vision e consentire prestazioni più veloci sui dispositivi edge.

I dispositivi edge stanno diventando sempre più comuni con l'avanzare della tecnologia. Dagli smartwatch che monitorano la frequenza cardiaca ai droni aerei che sorvegliano le strade, i sistemi edge possono elaborare i dati in tempo reale localmente all'interno del dispositivo stesso. 

Questo metodo è spesso più veloce e sicuro dell'invio di dati al cloud, soprattutto per le applicazioni che coinvolgono dati personali, come il rilevamento di targhe o il tracciamento dei gesti. Questi sono esempi di computer vision, una branca dell'intelligenza artificiale (IA) che consente alle macchine di interpretare e comprendere le informazioni visive.

Fig. 1. Un esempio di rilevamento di targhe. (Fonte)

Tuttavia, una considerazione importante è che tali applicazioni richiedono modelli di Vision AI in grado di gestire calcoli complessi, utilizzando risorse minime e operando in modo indipendente. La maggior parte dei modelli di computer vision sono sviluppati per sistemi ad alte prestazioni, il che li rende meno adatti per l'implementazione diretta su dispositivi edge. 

Per colmare questo divario, gli sviluppatori spesso applicano ottimizzazioni mirate che adattano il modello per funzionare in modo efficiente su hardware più piccolo. Questi aggiustamenti sono fondamentali per le implementazioni edge nel mondo reale, dove la memoria e la potenza di elaborazione sono limitate. 

È interessante notare che i modelli di computer vision come Ultralytics YOLO11 sono già progettati pensando all'efficienza edge, il che li rende ottimi per le attività in tempo reale. Tuttavia, le loro prestazioni possono essere ulteriormente migliorate utilizzando tecniche di ottimizzazione del modello come la potatura e la quantizzazione, consentendo un'inferenza ancora più veloce e un minore utilizzo delle risorse su dispositivi con risorse limitate.

In questo articolo, esamineremo più da vicino cosa sono la potatura e la quantizzazione, come funzionano e come possono aiutare i modelli YOLO a funzionare nelle implementazioni edge del mondo reale. Iniziamo!

Pruning e quantizzazione: tecniche fondamentali nell'ottimizzazione del modello

Quando si preparano i modelli di Vision AI per la distribuzione su dispositivi edge, uno degli obiettivi chiave è rendere il modello leggero e affidabile senza sacrificare le prestazioni. Ciò comporta spesso la riduzione delle dimensioni del modello e delle esigenze computazionali in modo che possa operare in modo efficiente su hardware con memoria, potenza o capacità di elaborazione limitate. Due modi comuni per farlo sono la potatura e la quantizzazione.

Il pruning è una tecnica di ottimizzazione dei modelli di IA che aiuta a rendere le reti neurali più piccole ed efficienti. In molti casi, alcune parti di un modello, come determinate connessioni o nodi, non contribuiscono molto alle sue previsioni finali. Il pruning funziona identificando e rimuovendo queste parti meno importanti, il che riduce le dimensioni del modello e ne velocizza le prestazioni.

D'altra parte, la quantizzazione è una tecnica di ottimizzazione che riduce la precisione dei numeri utilizzati da un modello. Invece di fare affidamento su numeri in virgola mobile a 32 bit ad alta precisione, il modello passa a formati più piccoli ed efficienti come i numeri interi a 8 bit. Questo cambiamento aiuta a ridurre l'utilizzo della memoria e accelera l'inferenza, il processo in cui il modello fa previsioni.

Fig. 2. Uno sguardo a pruning e quantizzazione. (Fonte)

Come funzionano pruning e quantizzazione

Ora che abbiamo una migliore comprensione di cosa sono la potatura e la quantizzazione, vediamo come funzionano entrambe. 

Il pruning viene eseguito utilizzando un processo noto come analisi di sensitività. Questo processo identifica quali parti dei modelli di reti neurali, come determinati pesi, neuroni o canali, contribuiscono meno alla previsione dell'output finale. Queste parti possono essere rimosse con un effetto minimo sull'accuratezza. Dopo il pruning, il modello viene solitamente riaddestrato per mettere a punto le sue prestazioni. Questo ciclo può essere ripetuto per trovare il giusto equilibrio tra le sue dimensioni e l'accuratezza.

Nel frattempo, la quantizzazione del modello si concentra su come il modello gestisce i dati. Inizia con la calibrazione, in cui il modello viene eseguito su dati di esempio per apprendere l'intervallo di valori che deve elaborare. Tali valori vengono quindi convertiti da virgola mobile a 32 bit a formati di precisione inferiore come interi a 8 bit.

Fig. 3. La quantizzazione aiuta a ridurre le dimensioni e la complessità del modello. (Fonte)

Sono disponibili diversi strumenti che semplificano l'uso del pruning e della quantizzazione in progetti di IA reali. La maggior parte dei framework di IA, come PyTorch e TensorFlow, include il supporto integrato per queste tecniche di ottimizzazione, consentendo agli sviluppatori di integrarle direttamente nel processo di deployment del modello. 

Una volta ottimizzato un modello, strumenti come ONNX Runtime possono aiutare a eseguirlo in modo efficiente su varie piattaforme hardware come server, desktop e dispositivi edge. Inoltre, Ultralytics offre integrazioni che consentono di esportare i modelli YOLO in formati adatti alla quantizzazione, semplificando la riduzione delle dimensioni del modello e l'aumento delle prestazioni.

Una panoramica dell'ottimizzazione dei modelli YOLO di Ultralytics

I modelli Ultralytics YOLO come YOLO11 sono ampiamente riconosciuti per il loro rilevamento di oggetti rapido e a singolo passaggio, il che li rende ideali per attività di Vision AI in tempo reale. Sono già progettati per essere leggeri ed efficienti per il deployment edge. Tuttavia, i livelli responsabili dell'elaborazione delle caratteristiche visive, chiamati livelli convoluzionali, possono ancora richiedere una notevole potenza di calcolo durante l'inferenza.

Potresti chiederti: se YOLO11 è già ottimizzato per l'uso edge, perché ha bisogno di ulteriore ottimizzazione? In parole povere, non tutti i dispositivi edge sono uguali. Alcuni funzionano su hardware molto minimale, come minuscoli processori embedded che consumano meno energia di una lampadina LED standard. 

In questi casi, anche un modello ottimizzato come YOLO11 necessita di ulteriore ottimizzazione per garantire prestazioni fluide e affidabili. Tecniche come la potatura e la quantizzazione aiutano a ridurre le dimensioni del modello e ad accelerare l'inferenza senza influire significativamente sulla precisione, rendendole ideali per ambienti così vincolati.

Per semplificare l'applicazione di queste tecniche di ottimizzazione, Ultralytics supporta varie integrazioni che possono essere utilizzate per esportare modelli YOLO in più formati come ONNX, TensorRT, OpenVINO, CoreML e PaddlePaddle. Ogni formato è progettato per funzionare bene con specifici tipi di hardware e ambienti di distribuzione. 

Ad esempio, ONNX viene spesso utilizzato nei flussi di lavoro di quantizzazione grazie alla sua compatibilità con un'ampia gamma di strumenti e piattaforme. TensorRT, d'altra parte, è altamente ottimizzato per i dispositivi NVIDIA e supporta l'inference a bassa precisione utilizzando INT8, rendendolo ideale per l'implementazione ad alta velocità su GPU edge.

Casi d'uso di grande impatto dell'ottimizzazione del modello Ultralytics YOLO

Mentre la computer vision continua a espandersi in varie applicazioni del mondo reale, i modelli YOLO ottimizzati rendono possibile l'esecuzione di attività come il rilevamento di oggetti, la segmentazione di istanze e il tracciamento di oggetti su hardware più piccolo e veloce. Successivamente, discuteremo un paio di casi d'uso in cui la potatura e la quantizzazione rendono queste attività di computer vision più efficienti e pratiche.

Sorveglianza intelligente guidata da YOLO11

Molti spazi industriali, così come le aree pubbliche, dipendono dal monitoraggio in tempo reale per rimanere sicuri e protetti. Luoghi come stazioni di transito, siti di produzione e grandi strutture all'aperto necessitano di sistemi di Vision AI in grado di rilevare persone o veicoli in modo rapido e preciso. Spesso, queste località operano con connettività limitata e vincoli hardware, il che rende difficile implementare modelli di grandi dimensioni.

In questi casi, un modello di Vision AI ottimizzato come YOLO11 è un'ottima soluzione. Le sue dimensioni compatte e le prestazioni veloci lo rendono perfetto per l'esecuzione su dispositivi edge a bassa potenza, come telecamere integrate o sensori intelligenti. Questi modelli possono elaborare i dati visivi direttamente sul dispositivo, consentendo il rilevamento in tempo reale di violazioni della sicurezza, accessi non autorizzati o attività anomale, senza fare affidamento sull'accesso costante al cloud.

Fig. 4. YOLO11 può essere utilizzato per monitorare luoghi pubblici come le stazioni della metropolitana.

Aumento della sicurezza nei cantieri edili con YOLO11

I cantieri edili sono ambienti frenetici e imprevedibili, pieni di macchinari pesanti, operai in movimento e attività costante. Le condizioni possono cambiare rapidamente a causa di variazioni di programma, spostamento di attrezzature o persino improvvisi cambiamenti meteorologici. In un contesto così dinamico, la sicurezza dei lavoratori può sembrare una sfida continua.

Il monitoraggio in tempo reale svolge un ruolo cruciale, ma i sistemi tradizionali spesso si basano sull'accesso al cloud o su hardware costoso che potrebbe non essere pratico in loco. È qui che modelli come YOLO11 possono essere efficaci. YOLO11 può essere ottimizzato per funzionare su dispositivi edge piccoli ed efficienti che operano direttamente sul sito senza bisogno di una connessione internet.

Ad esempio, si consideri un grande cantiere edile come l'ampliamento di un'autostrada che si estende per diversi ettari. In questo tipo di ambiente, tracciare manualmente ogni veicolo o attrezzatura può essere difficile e richiedere molto tempo. Un drone dotato di una telecamera e di un modello YOLO11 ottimizzato può essere d'aiuto rilevando e seguendo automaticamente i veicoli, monitorando il flusso del traffico e identificando problemi di sicurezza come accessi non autorizzati o comportamenti di guida non sicuri.

Fig. 5. Analisi di immagini di droni provenienti da un cantiere edile. (Fonte)

Pro e contro della potatura e della quantizzazione nella computer vision

Ecco alcuni vantaggi chiave offerti dai metodi di ottimizzazione dei modelli di computer vision come la potatura e la quantizzazione:

  • Implementazione efficiente in termini di costi: Modelli più piccoli ed efficienti possono ridurre la necessità di hardware costoso e di fascia alta, rendendo l'IA più accessibile e scalabile in diversi casi d'uso.

  • Latenza inferiore: Semplificando l'architettura del modello e riducendo il sovraccarico computazionale, queste tecniche possono contribuire a ottenere tempi di risposta più rapidi nelle applicazioni in tempo reale.

  • Efficienza energetica: Ridurre il carico computazionale diminuisce anche il consumo di energia, il che è particolarmente utile per i sistemi mobili o alimentati a batteria.

Sebbene il pruning e la quantizzazione offrano molti vantaggi, presentano anche alcuni compromessi che gli sviluppatori dovrebbero considerare quando ottimizzano i modelli. Ecco alcune limitazioni da tenere a mente:

  • Compromessi sull'accuratezza: Se la potatura è troppo aggressiva o se viene utilizzata una quantizzazione a bit molto bassi, l'accuratezza del modello, misurata da metriche come mAP, può diminuire.

  • Vincoli hardware: Non tutti i dispositivi supportano i formati a bassa precisione come INT8 allo stesso modo. Ciò può limitare dove e come un modello ottimizzato può essere implementato.

  • Complessità di implementazione: Ottenere buoni risultati spesso richiede un'attenta messa a punto specifica per il modello. Gli sviluppatori potrebbero aver bisogno di riaddestrare il modello ed eseguire test approfonditi per mantenere le prestazioni migliorando l'efficienza.

Punti chiave

Il pruning e la quantizzazione sono tecniche utili che aiutano i modelli YOLO a ottenere prestazioni migliori sui dispositivi edge. Riducono le dimensioni del modello, ne diminuiscono le esigenze di calcolo e accelerano le previsioni, il tutto senza una notevole perdita di accuratezza.

Questi metodi di ottimizzazione offrono inoltre agli sviluppatori la flessibilità di adattare i modelli a diversi tipi di hardware senza doverli ricostruire completamente. Con alcuni aggiustamenti e test, diventa più facile applicare la Vision AI in situazioni reali.

Unisciti alla nostra community in crescita! Esplora il nostro repository GitHub per saperne di più sull'AI. Sei pronto per iniziare i tuoi progetti di computer vision? Scopri le nostre opzioni di licenza. Scopri l'AI in agricoltura e la Vision AI nel settore sanitario visitando le nostre pagine delle soluzioni! 

Costruiamo insieme il futuro
dell'AI!

Inizia il tuo viaggio con il futuro del machine learning

Inizia gratis
Link copiato negli appunti