Regolarizzazione
Previeni l'overfitting e migliora la generalizzazione del modello con tecniche di regolarizzazione come L1, L2, dropout e early stopping. Scopri di più!
La regolarizzazione è un insieme di strategie cruciali in
apprendimento automatico (ML) per migliorare la
modello di generalizzare a nuovi dati non visti. Il suo obiettivo principale è quello di prevenire
l 'overfitting, un fenomeno comune in cui un modello apprende
il rumore e i dettagli specifici dei dati
dati di addestramento a scapito delle sue prestazioni su
dati validi. Introducendo informazioni o vincoli aggiuntivi - spesso sotto forma di un termine di penalità aggiunto alla funzione di perdita - la regolarizzazione scoraggia l'adattamento.
funzione di perdita, la regolarizzazionescoraggia il modello dal diventare
di diventare eccessivamente complesso. Ciò si traduce in un sistema più robusto che mantiene un'elevata
accuratezza sia sui dati di addestramento che su quelli di
dati di convalida.
Tecniche Comuni di Regolarizzazione
Esistono diversi metodi consolidati per applicare la regolarizzazione, ognuno dei quali si rivolge a diversi aspetti della complessità del modello e delle dinamiche di addestramento.
e delle dinamiche di formazione:
-
Regolarizzazione L1 e L2: Sono le forme più tradizionali. La regolarizzazione L1 (Lasso) aggiunge una penalità pari al valore assoluto dei coefficienti.
coefficienti, che può portare alcuni pesi a zero, effettuando di fatto una selezione delle caratteristiche. Regolarizzazione L2
(Ridge), ampiamente utilizzata nell'apprendimento profondo (DL), aggiunge
una penalità pari al quadrato della grandezza dei coefficienti, incoraggiando pesi del modello più piccoli e diffusi.
pesi del modello più piccoli e diffusi.
-
Strato di abbandono: Progettato specificamente per
reti neurali (NN), il dropout disattiva in modo casuale
disattiva una frazione di neuroni durante ogni fase di addestramento. Questo costringe la rete ad apprendere rappresentazioni ridondanti
ridondanti e impedisce di affidarsi a percorsi neuronali specifici, un concetto descritto in dettaglio nel documento di ricerca
ricerca originale sul dropout.
-
Aumento dei dati: Invece di modificare l'architettura del modello, questa tecnica espande il set di addestramento creando versioni modificate di immagini o punti dati esistenti.
di immagini o punti dati esistenti. Trasformazioni come la rotazione, il ridimensionamento e il capovolgimento aiutano il modello a diventare
invariante a questi cambiamenti. È possibile esplorare
tecniche di incremento dei datiYOLO per vedere
come queste vengono applicate in pratica.
-
Arresto anticipato: Questo approccio pratico prevede il monitoraggio delle prestazioni del modello su un set di validazione durante l'addestramento. Se la perdita
perdita di convalida smette di migliorare o comincia ad aumentare, il processo di
processo di formazione viene interrotto immediatamente. In questo modo si evita che il
modello di continuare ad apprendere il rumore nelle fasi successive dell'addestramento.
-
Levigazione delle etichette: Questa tecnica regola le etichette di destinazione durante l'addestramento, in modo che il modello non sia costretto a predire con una fiducia del 100% (ad esempio, una probabilità pari a 1,0).
(ad esempio, 1,0 di probabilità). Ammorbidendo gli obiettivi (ad esempio, a 0,9), il label smoothing impedisce alla rete di diventare troppo sicura di sé.
di sicurezza, il che è vantaggioso per compiti come la classificazione delle immagini.
classificazione delle immagini.
Implementare la regolarizzazione in Python
Librerie moderne come Ultralytics rendono semplice l'applicazione di queste tecniche tramite argomenti di formazione. L'esempio
esempio seguente mostra come addestrare un YOLO11 modello
con regolarizzazione L2 (controllata da weight_decay) e di abbandono per garantire un modello robusto.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model with specific regularization parameters
# 'weight_decay' applies L2 regularization
# 'dropout' applies a dropout layer with a 10% probability
results = model.train(data="coco8.yaml", epochs=50, weight_decay=0.0005, dropout=0.1)
Applicazioni nel mondo reale
La regolarizzazione è indispensabile per implementare sistemi di IA affidabili in vari settori.
-
Guida autonoma: In
AI per le soluzioni automobilistiche, i modelli di computer vision
devono detect pedoni e segnali stradali in diverse condizioni atmosferiche. Senza regolarizzazione, un modello
potrebbe memorizzare specifiche condizioni di illuminazione dal set di addestramento e fallire nel mondo reale. Tecniche come
decadimento del peso assicurano che il sistema di rilevamento si generalizzi bene a
pioggia, nebbia o abbagliamento.
-
Imaging medico: Quando si esegue l'analisi di
analisi di immagini mediche, i set di dati sono spesso
dimensioni limitate. L'overfitting è un rischio significativo in questo caso. I metodi di regolarizzazione, in particolare
aumento dei dati e l'arresto precoce, aiutano
modelli addestrati per detect anomalie nelle radiografie o nelle risonanze magnetiche, a rimanere accurati sui nuovi dati dei pazienti, supportando migliori risultati diagnostici.
risultati diagnostici.
Regolarizzazione e concetti correlati
È utile distinguere la regolarizzazione da altri termini di ottimizzazione e pre-elaborazione:
-
Regolarizzazione vs. Normalizzazione: La normalizzazione consiste nel ridimensionare i dati di input in un intervallo standard per accelerare la convergenza. Mentre tecniche come
normalizzazione dei lotti possono avere un leggero
regolarizzazione, il loro scopo principale è quello di stabilizzare le dinamiche di apprendimento, mentre la regolarizzazione penalizza esplicitamente la complessità.
penalizza la complessità.
-
Regolarizzazione vs. regolazione degli iperparametri.
Regolazione dell'iperparametro: I parametri di regolarizzazione (come il tasso di abbandono o la penalità L2) sono essi stessi iperparametri. La regolazione degli iperparametri
è il processo più ampio di ricerca dei valori ottimali per queste impostazioni, spesso utilizzando strumenti come l'Ultralytics Tuner.
Ultralytics Tuner.
-
Regolarizzazione vs. Apprendimento insiemistico: I metodi Ensemble combinano le previsioni di più modelli per ridurre la varianza e migliorare la generalizzazione. Pur raggiungendo un obiettivo simile alla regolarizzazione
raggiunge un obiettivo simile a quello della regolarizzazione, ma lo fa aggregando diversi modelli piuttosto che limitando l'apprendimento di un singolo modello.
l'apprendimento di un singolo modello.