Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

"Label Smoothing"

Migliora l'accuratezza e la robustezza dei modelli AI con lo smoothing delle etichette, una tecnica comprovata per migliorare la generalizzazione e ridurre l'eccessiva sicurezza.

Lo smoothing delle etichette è una tecnica di regolarizzazione utilizzata durante l'addestramento dei modelli di apprendimento automatico per evitare che la rete neurale diventi troppo sicura delle sue previsioni. rete neurale di diventare troppo fiduciosa nelle sue previsioni. Modificando leggermente le etichette di destinazione, questo metodo Questo metodo incoraggia il modello a produrre distribuzioni di probabilità meno estreme, che in ultima analisi portano a una migliore generalizzazione e migliori prestazioni su dati non visti. Questo metodo attenua efficacemente il problema comune dell'overfitting overfitting, in cui un modello memorizza i dati di dati di addestramento invece di apprendere i modelli modelli sottostanti, necessari per ottenere previsioni accurate in scenari reali.

La meccanica della levigatura delle etichette

Nei compiti standard di apprendimento supervisionato, come la classificazione delle immagini, i modelli vengono in genere addestrati utilizzando obiettivi "difficili". Questi obiettivi sono vettori codificati a un colpo in cui alla classe corretta viene assegnata una probabilità di 1,0 (100%), mentre a tutte le classi errate viene assegnato 0,0. Sebbene ciò sembri intuitivo, costringe la funzione funzione di perdita, spesso laCross-Entropy Loss, a guidare le uscite del livello logit all'infinito per ottenere esattamente per ottenere esattamente 1,0. Questo comportamento porta a un modello eccessivamente fiducioso, anche quando si sbaglia, e riduce la sua capacità di adattarsi a nuovi input. riduce la sua capacità di adattarsi a nuovi input.

Lo smoothing delle etichette sostituisce questi obiettivi duri con obiettivi "morbidi". Invece di assegnare 1,0 alla verità alla verità di base, la tecnica assegna un valore leggermente più basso, come 0,9. La massa di probabilità rimanente (ad esempio, 0,1) è distribuita in modo viene distribuita uniformemente tra le classi non corrette. Questo sottile spostamento impedisce alla funzione di attivazione, tipicamente Softmax, di saturare. Per una comprensione teorica più approfondita Per una comprensione teorica più approfondita, il documento di ricerca"Rethinking the Inception Architecture for Computer Vision" fornisce indicazioni fondamentali su come questo meccanismo stabilizza l'addestramento.

Implementazione dell'attenuazione delle etichette con Ultralytics

I moderni framework di computer vision rendono semplice l'applicazione di questa tecnica. Quando si utilizza il modello Ultralytics YOLO11 , è possibile abilitare lo smoothing delle etichette direttamente negli argomenti di addestramento. Questo è particolarmente utile per compiti di classificazione in cui i set di dati possono contenere ambiguità.

L'esempio seguente mostra come addestrare un modello con l'applicazione del label smoothing:

from ultralytics import YOLO

# Load the YOLO11 classification model
model = YOLO("yolo11n-cls.pt")

# Train on a dataset with label smoothing set to 0.1
# This distributes 10% of the probability mass to incorrect classes
model.train(data="mnist", epochs=5, label_smoothing=0.1)

Vantaggi nella calibrazione e nella robustezza del modello

Uno dei vantaggi principali dello smoothing delle etichette è il miglioramento della calibrazione del modello. Un modello ben calibrato produce probabilità previste che riflettono essenzialmente la reale probabilità di correttezza. Ad esempio, se un modello prevede una classe con una confidenza del 70%, dovrebbe essere corretto il 70% delle volte. Le etichette difficili spesso portano a modelli non calibrati che predicono con una fiducia del 99%, indipendentemente dall'incertezza reale. l'incertezza reale.

Inoltre, lo smoothing delle etichette aumenta la robustezza contro dati rumorosi. In insiemi di dati massicci come ImageNetalcune etichette possono essere errate o ambigue. Non forzando il modello a convergere non costringendo il modello a convergere esattamente a 1,0, la rete diventa più indulgente nei confronti di esempi occasionali etichettati in modo errato. esempi sbagliati, impedendo alla rete neurale di di apprendere in modo approfondito modelli errati.

Applicazioni nel mondo reale

Questa strategia di regolarizzazione è ampiamente adottata in vari domini dell'intelligenza artificiale. intelligenza artificiale per migliorare l'affidabilità.

  • Analisi delle immagini mediche: Nelle soluzioni di IA per la sanità soluzioni di IA per la sanità, l'incertezza è intrinseca. Una scansione potrebbe mostrare caratteristiche di un tumore che non sono definitive. L'attenuazione delle etichette aiuta modelli di analisi delle immagini mediche a evitare di fare di fare previsioni pericolosamente sicure di falsi positivi, assistendo i radiologi fornendo punteggi di probabilità più sfumati più sfumate piuttosto che certezze binarie.
  • Elaborazione del linguaggio naturale (NLP): in compiti come la traduzione traduzione automatica, spesso più parole possono possono spesso servire come traduzioni valide per una singola parola di partenza. Il label smoothing riconosce questa ambiguità evitando che il modello modello di assegnare una probabilità pari a zero ai sinonimi validi, un concetto cruciale in Trasformatori e Modelli linguistici di grandi dimensioni.

Confronto con concetti correlati

È utile distinguere lo smoothing delle etichette da altre tecniche utilizzate per migliorare le prestazioni del modello.

  • rispetto all'aumento dei dati: Mentre l'aumento dei dati modifica i dati in ingresso (ad esempio, ruotando o capovolgendo le immagini (ad esempio, ruotando o capovolgendo le immagini) per aumentare la diversità, lo smoothing delle etichette modifica le etichette di destinazione. Entrambi possono essere utilizzati contemporaneamente per addestrare modelli robusti come YOLO26, che mira a un'elevata accuratezza ed efficienza.
  • vs. Distillazione della conoscenza: Nella distillazione della conoscenza, un modello studente apprende dalle previsioni "morbide" di un modello insegnante. A differenza del label smoothing, in cui i soft target sono uniformi ed euristici, la distillazione utilizza probabilità apprese che contengono informazioni sulle relazioni uniformi ed euristici, la distillazione utilizza le probabilità apprese che contengono informazioni sulle relazioni tra le classi (ad esempio, una "classe" "è"). tra le classi (ad esempio, un "cane" è più simile a un "gatto" che a un'"automobile").
  • contro l'abbandono: Il livello strato dropout disattiva casualmente i neuroni durante l'addestramento per per evitare il co-adattamento. Questo modifica l'architettura della rete in modo dinamico, mentre l'attenuazione delle etichette altera l'obiettivo dell'ottimizzazione. l'obiettivo di ottimizzazione. Maggiori dettagli sul dropout sono disponibili in questo articolo del Journal of Machine Learning Research.

Integrando il label smoothing nella pipeline di addestramento, si garantisce che i modelli rimangano adattabili e calibrati. calibrati, il che è essenziale per il successo per il successo dell'implementazione dei modelli in produzione.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora