Data Drift
Esplora l'impatto della deriva dei dati sull'accuratezza dei modelli ML. Scopri come detect mitigare gli spostamenti utilizzando Ultralytics e la Ultralytics per MLOps robusti.
Il drift dei dati si riferisce a un fenomeno nel
machine learning (ML) in cui le proprietà statistiche
dei dati di input osservati in un ambiente di produzione cambiano nel tempo rispetto ai
dati di addestramento originariamente utilizzati per costruire il modello.
Quando un modello viene implementato, opera con il presupposto implicito che i dati reali che incontra saranno
fondamentalmente simili ai dati storici da cui ha appreso. Se questo presupposto viene violato a causa del cambiamento delle
condizioni ambientali o dei comportamenti degli utenti, l'accuratezza e l'affidabilità del modello
possono degradarsi in modo significativo, anche
se il codice e i parametri del modello rimangono invariati. Il rilevamento e la gestione del data drift sono una componente fondamentale delle
operazioni di machine learning (MLOps), che garantiscono che i sistemi di IA continuino a fornire valore dopo l'
implementazione del modello.
Data Drift vs. Concept Drift
Per mantenere efficacemente i sistemi di IA, è essenziale distinguere il data drift da un termine strettamente correlato, il concept
drift. Sebbene entrambi comportino un calo delle prestazioni, hanno origine da cambiamenti diversi nell'ambiente.
-
Deriva dei dati (Covariate Shift): si verifica quando la distribuzione delle caratteristiche di input cambia, ma
la relazione tra gli input e l'output target rimane stabile. Ad esempio, nella
visione artificiale (CV), un modello potrebbe essere addestrato
su immagini scattate durante il giorno. Se la fotocamera inizia a catturare immagini al crepuscolo, la distribuzione degli input (illuminazione,
ombre) è cambiata, ma la definizione di "auto" o "pedone" rimane la stessa.
-
Concept Drift: si verifica quando cambia la relazione statistica tra le caratteristiche di input e la
variabile target. In altre parole, la definizione della verità di base evolve. Ad esempio, nel
rilevamento delle frodi finanziarie, i
modelli che costituiscono l'attività fraudolenta cambiano spesso man mano che i truffatori adattano le loro tattiche, alterando il confine
tra transazioni sicure e fraudolente.
Applicazioni ed esempi nel mondo reale
La deriva dei dati è una sfida diffusa in tutti i settori in cui
l'intelligenza artificiale (AI) interagisce
con ambienti fisici dinamici.
-
Sistemi autonomi: nel campo dei
veicoli autonomi, i modelli di percezione si basano
sul rilevamento degli oggetti per navigare in sicurezza. Un modello
addestrato principalmente su dati provenienti dalle strade soleggiate della California può subire una grave deriva dei dati se implementato in una regione con
forti nevicate. Gli input visivi (corsie coperte di neve, segnali oscurati) differiscono drasticamente dal set di addestramento,
compromettendo potenzialmente le caratteristiche di sicurezza come il
rilevamento delle corsie.
-
Imaging sanitario:
I sistemi di analisi delle immagini mediche possono subire
derive quando gli ospedali aggiornano il proprio hardware. Se un modello è stato addestrato su radiografie provenienti da uno scanner di un determinato
produttore, l'introduzione di una nuova macchina con impostazioni di risoluzione o contrasto diverse rappresenta uno spostamento nella
distribuzione dei dati. Senza
la manutenzione del modello, le
prestazioni diagnostiche potrebbero diminuire.
Strategie di rilevamento e mitigazione
Identificare tempestivamente le derive previene i "guasti silenziosi", ovvero quei casi in cui un modello formula previsioni sicure ma errate.
I team utilizzano varie strategie per individuare queste anomalie prima che abbiano un impatto sui risultati aziendali.
Metodi di rilevamento
-
Test statistici: gli ingegneri utilizzano spesso metodi come il
test di Kolmogorov-Smirnov
per confrontare matematicamente la distribuzione dei dati di produzione in entrata con la linea di base di addestramento.
-
Monitoraggio delle prestazioni: il monitoraggio in tempo reale di metriche quali la
precisione e il
richiamo può fungere da proxy per il rilevamento delle derive
. Un calo improvviso del punteggio di confidenza medio di un
modello YOLO26 spesso indica che il modello sta avendo difficoltà
con nuovi modelli di dati.
-
Visualizzazione: strumenti come
TensorBoard o piattaforme specializzate come
Grafana consentono ai team di visualizzare istogrammi delle distribuzioni delle caratteristiche, rendendo
più facile individuare visivamente i cambiamenti.
Tecniche di mitigazione
-
Riqualificazione: la soluzione più efficace è spesso quella di riqualificare il modello. Ciò comporta la raccolta dei
nuovi dati modificati, la loro annotazione e la loro combinazione con il set di dati originale
. Ultralytics semplifica questo processo fornendo strumenti per la
gestione dei set di dati e la formazione cloud.
-
Aumento dei dati: l'applicazione di un aumento esteso dei dati durante la formazione iniziale, come la modifica della luminosità, l'aggiunta di rumore o la rotazione delle immagini, può rendere il modello più resiliente a piccoli cambiamenti ambientali.
-
Adattamento del dominio: le tecniche di
apprendimento trasferibile consentono ai modelli di adattarsi a un
nuovo dominio di destinazione utilizzando una quantità minore di dati etichettati, colmando il divario tra l'ambiente di formazione di origine
e la nuova realtà produttiva.
È possibile implementare un monitoraggio di base della deriva verificando l'affidabilità delle previsioni del modello. Se l'affidabilità media
scende costantemente al di sotto di una soglia di affidabilità, potrebbe essere attivato un avviso per la revisione dei dati.
from ultralytics import YOLO
# Load the official YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on a new image from the production stream
results = model("https://ultralytics.com/images/bus.jpg")
# Monitor confidence scores; consistently low scores may signal data drift
for result in results:
for box in result.boxes:
print(f"Class: {box.cls}, Confidence: {box.conf.item():.2f}")
La gestione della deriva dei dati non è una soluzione una tantum, ma un processo continuo che dura per tutto il ciclo di vita. I fornitori di servizi cloud offrono servizi gestiti
come AWS SageMaker Model Monitor o
Google Vertex AI per automatizzare questo processo. Monitorando in modo proattivo
questi cambiamenti, le organizzazioni garantiscono che i loro modelli rimangano robusti, mantenendo elevati standard di
sicurezza dell'IA ed efficienza operativa.