Glossario

Precisione mista

Ottimizza l'efficienza del deep learning con il training a precisione mista! Ottieni velocità superiori, un utilizzo ridotto della memoria e risparmi energetici senza sacrificare l'accuratezza.

La precisione mista è una tecnica utilizzata nel deep learning per accelerare l'addestramento del modello e ridurre il consumo di memoria. Essa comporta l'uso di una combinazione di formati numerici a precisione inferiore, come il floating-point a 16 bit (FP16), e formati a precisione superiore, come il floating-point a 32 bit (FP32), durante il calcolo. Utilizzando strategicamente numeri a precisione inferiore per determinate parti del modello, come la moltiplicazione dei pesi, e mantenendo i componenti critici come gli aggiornamenti dei pesi a precisione superiore, l'addestramento a precisione mista può accelerare significativamente le prestazioni sulle moderne GPU senza una perdita sostanziale di accuratezza del modello.

Come funziona la precisione mista

L'idea alla base della precisione mista è quella di sfruttare la velocità e l'efficienza della memoria dei tipi di dati a precisione inferiore. L'hardware moderno, in particolare le GPU NVIDIA con Tensor Core, può eseguire operazioni su numeri a 16 bit molto più velocemente che su numeri a 32 bit. Il processo in genere prevede tre passaggi chiave:

Casting a precisione inferiore: La maggior parte delle operazioni del modello, in particolare le moltiplicazioni di matrici e le convoluzioni ad alta intensità di calcolo, vengono eseguite utilizzando l'aritmetica a mezza precisione (FP16). Ciò riduce l'ingombro di memoria e accelera i calcoli.
Mantenimento di una copia master dei pesi: Per mantenere l'accuratezza e la stabilità del modello, viene conservata una copia master dei pesi del modello nel formato standard a virgola mobile a 32 bit (FP32). Questa copia master viene utilizzata per accumulare i gradienti e aggiornare i pesi durante il processo di training.
Ridimensionamento della perdita (Loss Scaling): Per prevenire l'underflow numerico, ovvero quando piccoli valori di gradiente diventano zero quando convertiti in FP16, viene utilizzata una tecnica chiamata ridimensionamento della perdita. Questa tecnica prevede la moltiplicazione della perdita per un fattore di scala prima della retropropagazione per mantenere i valori del gradiente entro un intervallo rappresentabile per FP16. Prima che i pesi vengano aggiornati, i gradienti vengono riportati alla scala originale.

Framework di deep learning come PyTorch e TensorFlow hanno un supporto integrato per la precisione mista automatica, rendendone facile l'implementazione.

Applicazioni ed Esempi

La precisione mista è ampiamente adottata nell'addestramento di modelli di machine learning (ML) su larga scala, dove l'efficienza è fondamentale.

Addestramento di modelli linguistici di grandi dimensioni (LLM): Modelli come GPT-3 e BERT hanno miliardi di parametri. Addestrarli utilizzando solo FP32 richiederebbe quantità proibitive di memoria GPU e tempo. La precisione mista rende fattibile l'addestramento di tali modelli di fondazione riducendo significativamente le esigenze di memoria e accelerando i calcoli. Ciò consente ai ricercatori di iterare più velocemente e di costruire modelli linguistici ancora più potenti.
Accelerazione dei modelli di Computer Vision: Nella computer vision (CV), la precisione mista accelera l'addestramento di modelli complessi come le reti neurali convoluzionali (CNN) e i Vision Transformer (ViT). Per attività come il rilevamento di oggetti e la segmentazione delle immagini, i modelli Ultralytics YOLO, incluso l'ultimo Ultralytics YOLO11, sfruttano la precisione mista per una convergenza più rapida. Questo è particolarmente utile per la regolazione degli iperparametri e lo sviluppo rapido all'interno di piattaforme come Ultralytics HUB. Un addestramento più rapido facilita anche una sperimentazione più veloce su set di dati di grandi dimensioni come COCO. La precisione mista può essere utilizzata anche durante l'inferenza per accelerare il deployment del modello, in particolare quando si esporta in formati come TensorRT, che è fortemente ottimizzato per precisioni inferiori.

Concetti correlati

La precisione mista è una delle diverse tecniche di ottimizzazione utilizzate per rendere più efficienti i modelli di deep learning. È importante distinguerla dai concetti correlati:

Model Quantization: La quantizzazione riduce le dimensioni del modello e il costo computazionale convertendo i numeri in virgola mobile (come FP32 o FP16) in formati interi a bit inferiori, come INT8. Mentre la precisione mista utilizza diversi formati in virgola mobile durante l'addestramento, la quantizzazione viene tipicamente applicata dopo l'addestramento (quantizzazione post-training) o durante l'addestramento (quantization-aware training) per ottimizzare l'inferenza, specialmente sui dispositivi edge.
Model Pruning: Il pruning è una tecnica che prevede la rimozione di connessioni (pesi) ridondanti o non importanti da una rete neurale. A differenza della precisione mista, che modifica il formato numerico dei pesi, il pruning altera l'architettura stessa del modello per ridurne le dimensioni e la complessità. Queste tecniche possono essere utilizzate insieme per ottenere migliori prestazioni.

Precisione mista

Addestra i modelli YOLO di Ultralytics per ottimizzare i flussi di lavoro in tutti i settori

Soluzione di licenza aziendale flessibile per potenziare la tua innovazione

Addestra modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Come funziona la precisione mista

Applicazioni ed Esempi

Concetti correlati

Leggi di più in questa categoria

Implementare i modelli YOLO di Ultralytics utilizzando l'integrazione con ExecuTorch

I punti salienti di Ultralytics alla Conferenza PyTorch 2025

Utilizzo dell'apprendimento auto-supervisionato per il denoising delle immagini

Unisciti alla community di Ultralytics