Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Disimparare

Scopri come utilizzare il "machine unlearning" per rimuovere in modo selettivo i dati sensibili utilizzati per l'addestramento. Scopri come garantire la conformità al GDPR e la protezione dei dati con Ultralytics .

Il "machine unlearning" è un settore emergente del machine learning che si concentra sull'eliminazione dell' influenza di un sottoinsieme specifico di dati di addestramento da un modello già addestrato. Poiché i modelli elaborano enormi quantità di informazioni, la capacità di "dimenticare" selettivamente i dati è diventata fondamentale. Questo processo consente agli sviluppatori di estrarre punti dati specifici senza dover riaddestrare l'intera architettura da zero, con un notevole risparmio di tempo e di risorse computazionali.

Il fattore trainante principale di questa tecnologia è la privacy dei dati. Con l'introduzione di rigide normative sulla protezione dei dati e di disposizioni come il "diritto all'oblio" previsto dal GDPR, gli utenti hanno il diritto legale di richiedere la cancellazione dei propri dati personali. Il "machine unlearning" offre una soluzione per eliminare in modo sicuro questi dati dai modelli di deep learning, garantendo la conformità alle normative pur mantenendo l'utilità complessiva del modello.

Come funziona il "machine unlearning"

I tradizionali meccanismi di discesa del gradiente integrano profondamente i dati di addestramento nei pesi di una rete. Per questo motivo, la semplice eliminazione dell'immagine originale o del file di testo da un database non rimuove i modelli appresi dal modello stesso. Le tecniche di disapprendimento automatico si dividono generalmente in due categorie: disapprendimento esatto e disapprendimento approssimativo. Il disapprendimento esatto garantisce che il modello finale sia statisticamente identico a un modello addestrato interamente senza i dati dimenticati, spesso ottenuto attraverso un'abile partizionamento del set di dati. Il disapprendimento approssimativo, spesso discusso in studi recenti sugli algoritmi di disapprendimento efficienti, utilizza interventi matematici per regolare i parametri del modello e mascherare retroattivamente l'influenza dei dati target.

È importante distinguere il "disimparare" delle macchine dall' apprendimento continuo. Mentre l'apprendimento continuo mira ad aggiungere progressivamente nuove conoscenze senza incorrere in un "dimenticare catastrofico", il "disimparare" consiste nella rimozione deliberata e mirata di conoscenze. Le organizzazioni che si occupano di equità algoritmica ricorrono al "disimparare" anche per correggere i pregiudizi nell'IA, eliminando i dati dannosi o distorti dopo l'addestramento.

Applicazioni nel mondo reale

Gli algoritmi di disimparamento sono passati rapidamente dalla ricerca teorica sulla sicurezza dell'IA all'applicazione pratica in diversi settori.

  • detect istenza sanitaria e diagnostica per immagini: nell' analisi delle immagini mediche, il consenso del paziente può essere revocato in qualsiasi momento. Se un paziente richiede che le proprie radiografie vengano rimosse, gli ospedali possono ricorrere all'«unlearning» per estrarre i suoi specifici modelli fisiologici da un modello diagnostico senza compromettere la capacità del sistema di individuare malattie in altri pazienti.
  • Sorveglianza e sicurezza: nei moderni sistemi di sorveglianza intelligenti, le telecamere possono catturare involontariamente informazioni di identificazione personale (PII), come targhe o volti. Il processo di "disimparare" consente agli sviluppatori di rimuovere retroattivamente queste specifiche PII da un modello di visione artificiale già implementato, al fine di conformarsi alle tecniche di IA che garantiscono la tutela della privacy.

Attuazione di strategie di disimparamento

Sebbene le API di disapprendimento diretto in un unico passaggio rappresentino ancora un’area di ricerca attiva nell’ambito delle sfide relative al disapprendimento automatico, gli operatori del settore spesso ottengono un punto di riferimento esatto per il disapprendimento creando un set di dati epurato e avviando un rapido ciclo di riaddestramento. Quando si utilizza la Ultralytics per la gestione dei dati basata su cloud, è possibile creare facilmente una versione del set di dati per escludere i dati revocati.

Di seguito è riportato un breve Python che illustra l'approccio di base al "disimparare" tramite il riaddestramento Ultralytics su un set di dati epurato:

from ultralytics import YOLO

# Load an existing, pre-trained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Naive exact unlearning: perform efficient retraining on a sanitized dataset.
# The 'sanitized_data.yaml' excludes the specific sensitive data to be "unlearned"
results = model.train(data="sanitized_data.yaml", epochs=50, device="cuda")

Con l'aumentare della domanda di ottimizzazione dei modelli e di robustezza nelle reti neurali, l'unlearning sta diventando un requisito standard. Che si tratti di gestire complesse pipeline di classificazione delle immagini o di implementare modelli sull'edge, l'integrazione di meccanismi per dimenticare i dati in modo responsabile garantisce che i sistemi di IA rimangano conformi, equi e affidabili.

Potenziamento con Ultralytics YOLO

Ottieni una visione AI avanzata per i tuoi progetti. Trova oggi stesso la licenza giusta per i tuoi obiettivi.

Esplora le opzioni di licenza