Esplora le cause della distorsione dei set di dati nell'IA e scopri come mitigarla. Scopri come utilizzare la Ultralytics e Ultralytics per migliorare l'equità.
Il bias dei dataset si verifica quando le informazioni utilizzate per addestrare i modelli di machine learning (ML) contengono errori sistematici o distribuzioni distorte, portando il sistema di IA risultante a favorire determinati risultati rispetto ad altri. Poiché i modelli funzionano come motori di riconoscimento dei modelli, dipendono interamente dai loro input; se i dati di addestramento non riflettono accuratamente la diversità dell'ambiente reale, il modello erediterà questi punti ciechi. Questo fenomeno spesso si traduce in una scarsa generalizzazione, in cui un'IA potrebbe ottenere punteggi elevati durante i test, ma fallisce in modo significativo quando viene implementata per l' inferenza in tempo reale in scenari diversi o imprevisti .
La distorsione può infiltrarsi in un set di dati in diverse fasi del ciclo di vita dello sviluppo, spesso derivando da decisioni umane durante la raccolta o l'annotazione.
L'impatto della distorsione dei set di dati è significativo in vari settori, in particolare dove i sistemi automatizzati prendono decisioni ad alto rischio o interagiscono con il mondo fisico.
Nel settore automobilistico, l'intelligenza artificiale si affida alle telecamere per identificare pedoni e ostacoli. Se un'auto a guida autonoma viene addestrata principalmente sulla base di dati raccolti in climi soleggiati e asciutti, potrebbe mostrare un calo delle prestazioni quando opera in condizioni di neve o pioggia battente. Questo è un classico esempio di come la distribuzione dell'addestramento non corrisponda alla distribuzione operativa, con conseguenti rischi per la sicurezza.
Analogamente, nell'analisi delle immagini mediche, i modelli diagnostici vengono spesso addestrati sui dati storici dei pazienti. Se un modello progettato per detect le condizioni detect viene addestrato su un set di dati dominato da tonalità di pelle più chiare, potrebbe dimostrare un'accuratezza significativamente inferiore nella diagnosi di pazienti con pelle più scura. Per affrontare questo problema è necessario uno sforzo concertato per curare set di dati diversificati che garantiscano l'equità dell'IA in tutti i gruppi demografici.
Gli sviluppatori possono ridurre la distorsione dei set di dati utilizzando strategie di controllo rigorose e di formazione avanzata. Tecniche come l' aumento dei dati aiutano a bilanciare i set di dati creando artificialmente variazioni di esempi sottorappresentati (ad esempio, capovolgendo, ruotando o regolando la luminosità). Inoltre, la generazione di dati sintetici può colmare le lacune laddove i dati reali sono scarsi o difficili da raccogliere.
È fondamentale gestire questi set di dati in modo efficace. Ultralytics consente ai team di visualizzare le distribuzioni delle classi e identificare gli squilibri prima dell'inizio della formazione. Inoltre, l'adesione a linee guida come il NIST AI Risk Management Framework aiuta le organizzazioni a strutturare il loro approccio per identificare e mitigare questi rischi in modo sistematico.
È utile distinguere il bias del set di dati da termini simili per comprendere da dove proviene l'errore:
L'esempio seguente mostra come applicare l'aumento dei dati durante l'addestramento con YOLO26. Aumentando gli aumenti geometrici, il modello impara a generalizzare meglio, riducendo potenzialmente il bias verso orientamenti o posizioni specifici degli oggetti presenti nel set di addestramento.
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)