CutMix
Scopri come la tecnica di data augmentation CutMix previene l'overfitting. Impara ad applicarla facilmente per addestrare modelli Ultralytics YOLO26 robusti.
CutMix è una tecnica avanzata di data augmentation utilizzata per addestrare modelli di computer vision robusti, ritagliando una porzione rettangolare da un'immagine e incollandola su un'immagine target. A differenza di aumentazioni più semplici che regolano la luminosità o la rotazione, CutMix altera la composizione fondamentale di un campione di addestramento. Quando i pixel vengono scambiati, le ground-truth labels corrispondenti vengono mescolate in proporzione all'area del ritaglio. Questo aiuta le artificial neural networks a imparare a identificare oggetti da viste parziali, costringendo il modello a fare affidamento su molteplici caratteristiche invece di concentrarsi esclusivamente sulle parti più discriminanti di un oggetto. Introdotta per la prima volta in un documento accademico del 2019, è diventata un'operazione standard nei framework di deep learning per prevenire l'overfitting e migliorare la generalizzazione su grandi datasets.
Link to this sectionCome funziona la tecnica#
Durante l'addestramento del modello, l'algoritmo seleziona casualmente una coordinata centrale e una dimensione della casella per estrarre una regione da un'immagine secondaria. Questo ritaglio viene poi sovrapposto direttamente a un'immagine primaria all'interno del batch attivo. Se l'immagine primaria conteneva un cane e quella secondaria un gatto, l'immagine finale presenterebbe un ritaglio di gatto che sostituisce una porzione del cane. Le etichette di classificazione vengono aggiornate utilizzando l'linear interpolation in base all'area esatta del ritaglio: ad esempio, ottenendo un'etichetta di 0,7 cane e 0,3 gatto. Nei compiti di object detection, le bounding box che conservano almeno una certa percentuale (spesso il 10%) della loro area originale all'interno della regione incollata vengono preservate. Questa tecnica è supportata nativamente come iperparametro di addestramento cutmix in Ultralytics YOLO, consentendo agli operatori di definire facilmente la probabilità di questa trasformazione.
Link to this sectionDifferenziare tra MixUp e Cutout#
CutMix è strettamente correlata ad altre due tecniche di data augmentation prominenti, ma risolve le loro specifiche limitazioni:
- MixUp Augmentation: MixUp fonde due immagini globalmente calcolando una media ponderata dei loro valori di pixel. Sebbene efficace, spesso risulta in immagini fantasma innaturali e semitrasparenti che possono confondere i modelli interrompendo la spatial correlation locale. Al contrario, CutMix preserva le intensità originali dei pixel all'interno delle regioni ritagliate, aspetto che i ricercatori hanno ulteriormente ottimizzato in approcci come Attentive CutMix.
- Cutout Augmentation: Cutout scarta informazioni mascherando una regione rettangolare casuale con pixel neri o con la media del dataset. Sebbene incoraggi il modello a guardare l'intero oggetto, spreca preziosi tensors di addestramento. CutMix sostituisce quello spazio mancante con ritagli informativi di image classification provenienti da altre immagini, aumentando l'efficienza complessiva dell'apprendimento.
Link to this sectionApplicazioni nel mondo reale#
Addestrando i modelli a riconoscere oggetti severamente occlusi, CutMix aumenta significativamente le prestazioni del machine learning in diversi settori.
- Automotive AI and Autonomous Driving: Nelle auto a guida autonoma, insegna al sistema a identificare pedoni o veicoli anche quando sono parzialmente bloccati da segnali stradali, migliorando la sicurezza in ambienti affollati.
- Medical Diagnostics and Organ Segmentation: In ambito sanitario, questo metodo è ampiamente utilizzato per la organ and tumor segmentation, consentendo ai modelli di riconoscere complessi confini tissutali anche quando le strutture anatomiche si sovrappongono.
- Remote Sensing for Satellite Imagery: Questa strategia preserva classi dense e sovrapposte come edifici e vegetazione da viste aeree. Variazioni avanzate sono attivamente studiate per migliorare il long-tailed recognition su dati fortemente sbilanciati.
Link to this sectionImplementazione nella pratica#
Integrare questa aumentazione in una pipeline AI è semplice. La maggior parte delle librerie di alto livello la supporta nativamente, come PyTorch Transforms e Keras Preprocessing Layers.
Quando addestri un modello come YOLO26, configurare questa aumentazione richiede solo una singola regolazione di parametro. Questo gestisce automaticamente sia il patching dell'immagine che la complessa logica di ritaglio della bounding box.
from ultralytics import YOLO
# Initialize the recommended Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model with CutMix enabled at a 50% probability
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, cutmix=0.5)Per i team che gestiscono flussi di lavoro di visione su larga scala, la Ultralytics Platform semplifica tutto consentendo agli utenti di regolare queste data augmentation best practices direttamente da un'interfaccia cloud, ottimizzando il percorso dall'annotazione al model deployment.






