Scopri come identificare e mitigare il bias del dataset nell'AI per garantire modelli di machine learning equi, accurati e affidabili per applicazioni nel mondo reale.
Il bias del dataset si riferisce a un errore sistematico o a uno squilibrio nelle informazioni utilizzate per addestrare i modelli di modelli di apprendimento automatico (ML), con il risultato di sistemi che non riflettono accuratamente l'ambiente reale a cui sono destinati. Nel contesto della di computer vision (CV), i modelli imparano a riconoscere modelli basati interamente sui dati di addestramento. Se questa base è se questi dati sono distorti, ad esempio a causa della sovrarappresentazione di una specifica condizione demografica o ambientale, il modello "erediterà" questi punti ciechi. modello "erediterà" questi punti ciechi. Questo fenomeno è una delle cause principali della scarsa generalizzazione, quando un sistema di IA un sistema di intelligenza artificiale si comporta bene in fase di test ma fallisce quando viene impiegato per in tempo reale in scenari diversi.
Capire dove hanno origine i pregiudizi è il primo passo verso la prevenzione. Spesso si insinua nelle fasi iniziali della la raccolta e l'annotazione dei raccolta e annotazione dei dati processo di raccolta e annotazione dei dati:
Le conseguenze di una distorsione dei dati possono variare da piccoli inconvenienti a fallimenti critici della sicurezza in settori ad alto rischio. industrie ad alto rischio.
Anche se spesso vengono discussi insieme, è utile distinguere la distorsione del set di dati da quella pregiudizio algoritmico.
Entrambi contribuiscono alla questione più ampia dei pregiudizi nell'IA e affrontarli è fondamentale per l'etica e l'equità dell 'IA. equità nell'IA.
Gli sviluppatori possono utilizzare diverse tecniche per identificare e ridurre i pregiudizi. L'utilizzo di dati sintetici può aiutare a colmare le lacune laddove i dati del mondo reale dati reali sono scarsi. Inoltre, una rigorosa valutazione rigorosa del modello che suddivide prestazioni per sottogruppo (invece di una semplice media globale) può rivelare carenze nascoste.
Un altro metodo potente è l'aumento dei dati. Modificando modificando artificialmente le immagini di addestramento - cambiando i colori, la rotazione o l'illuminazione - gli sviluppatori possono forzare il modello ad apprendere caratteristiche più robuste piuttosto che affidarsi a dettagli incidentali di parte.
L'esempio seguente mostra come applicare l'incremento durante l'addestramento con Ultralytics YOLO11 per attenuare le distorsioni legate all'orientamento orientamento dell'oggetto o alle condizioni di illuminazione:
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
data="coco8.yaml",
epochs=5,
fliplr=0.5, # 50% probability of flipping image horizontally
hsv_v=0.4, # Vary image brightness (value) by +/- 40%
)
Gestendo in modo proattivo la qualità del set di dati e utilizzando strumenti come gli iperparametri di iperparametri di incremento, gli ingegneri possono costruire AI responsabile responsabile che funzioni in modo affidabile per tutti. Per ulteriori letture sulle metriche di equità, risorse come AI Fairness 360 di IBM forniscono eccellenti toolkit strumenti open source.