Biais de l'ensemble de données
Apprenez à identifier et à atténuer les biais dans les ensembles de données d'IA afin de garantir des modèles d'apprentissage automatique équitables, précis et fiables pour les applications du monde réel.
Le biais des ensembles de données fait référence à une erreur systématique ou à un déséquilibre dans les informations utilisées pour entraîner les
modèles d'apprentissage automatique (ML), ce qui conduit le
système résultant à refléter ces distorsions dans ses prédictions. Dans le domaine de la
vision par ordinateur (CV), les modèles agissent comme des moteurs de reconnaissance de formes
qui dépendent entièrement de leurs entrées. Si les
données d'entraînement ne sont pas représentatives de l'environnement réel
auquel le modèle sera confronté, l'IA « héritera » de ces angles morts. Ce phénomène conduit souvent
à une mauvaise généralisation, où un modèle obtient des scores élevés lors des tests, mais échoue de manière significative lorsqu'il est déployé pour
une inférence en temps réel dans divers scénarios.
Sources courantes de biais
Les biais peuvent s'infiltrer dans un ensemble de données à plusieurs étapes du cycle de vie du développement, souvent en raison de décisions humaines ou de
problèmes de disponibilité des données.
-
Biais de sélection: cela se produit lorsque les
données collectées ne représentent pas de manière aléatoire la population cible. Par exemple, la création d'un
ensemble de données de reconnaissance faciale utilisant principalement des images
de célébrités peut biaiser le modèle vers un maquillage épais et un éclairage professionnel, ce qui le rendra inefficace sur les images quotidiennes
des webcams.
-
Erreurs d'étiquetage : la subjectivité lors de l'
étiquetage des données peut introduire des préjugés humains. Si les
annotateurs classifient systématiquement de manière erronée des objets ambigus en raison d'un manque de directives claires, le modèle traite ces
erreurs comme des vérités fondamentales.
-
Biais de représentation:
Même s'ils sont sélectionnés de manière aléatoire, les groupes minoritaires peuvent être statistiquement noyés par la classe majoritaire. Dans la
détection d'objets, un ensemble de données comprenant 10 000 images
de voitures mais seulement 100 images de vélos donnera lieu à un modèle biaisé vers la détection de voitures.
Exemples concrets d'applications de l'IA
Les conséquences du biais des ensembles de données vont au-delà des mesures académiques et ont un impact direct sur la sécurité et la fiabilité de l'
intelligence artificielle dans l'industrie.
-
Conduite autonome : les systèmes de conduite autonome s'appuient sur les
stacks de perception des véhicules autonomes pour
identifier les dangers. Si un modèle est principalement entraîné à partir de données collectées sous le soleil de Californie, il peut présenter un
biais important dans des conditions neigeuses ou pluvieuses. Ce manque de diversité environnementale crée des risques pour la sécurité lorsque le véhicule
fonctionne dans des climats différents, ce qui nécessite une
évaluation rigoureuse du modèle dans des conditions météorologiques variées
.
-
Diagnostic médical : dans le domaine de l'
IA appliquée à la santé, les modèles sont de plus en plus utilisés
pour l'analyse d'images médicales afin de detect des
affections detect . Si l'ensemble de données d'apprentissage se compose principalement de teints clairs, la précision diagnostique du modèle
peut diminuer considérablement pour les patients à la peau plus foncée.
Cette disparité souligne la nécessité éthique de constituer des ensembles de données inclusifs afin de garantir des soins équitables aux patients
.
Stratégies d'atténuation
Les développeurs peuvent utiliser plusieurs techniques pour identifier et réduire les biais, garantissant ainsi une
meilleure conformité éthique de l'IA.
-
Augmentation des données : en modifiant artificiellement les images d'entraînement (rotation, mise à l'échelle ou
ajustement de la luminosité, par exemple), les ingénieurs peuvent simuler un plus large éventail de conditions.
L'augmentation des données aide le modèle à apprendre
des caractéristiques qui sont invariables par rapport à des détails accessoires tels que l'orientation ou l'éclairage.
-
Données synthétiques : lorsque les données réelles pour les cas limites sont rares,
les données synthétiques générées par des moteurs de jeu ou des
modèles génératifs peuvent combler les lacunes, en équilibrant la distribution des classes.
-
Audit d'équité : l'utilisation d'outils tels que
IBM AI Fairness 360 permet aux équipes de calculer des indicateurs
qui mesurent spécifiquement les performances du modèle auprès de différents groupes ou sous-populations protégés.
Exemple de code : atténuer le biais d'orientation
L'exemple suivant montre comment appliquer l'augmentation pendant l'entraînement avec le modèle recommandé
Ultralytics . En activant le retournement horizontal, le modèle apprend à detect
quelle que soit leur orientation, ce qui réduit le biais d'orientation.
from ultralytics import YOLO
# Load the YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")
# Train with specific augmentations to improve robustness
# 'fliplr' (flip left-right) helps mitigate bias if objects only face one way in the raw data
results = model.train(
data="coco8.yaml",
epochs=10,
fliplr=0.5, # 50% probability of flipping the image horizontally
hsv_v=0.4, # Vary brightness to handle lighting bias
)
Biais des ensembles de données vs termes connexes
Il est utile de distinguer le biais des ensembles de données des concepts similaires dans le
domaine de l'IA responsable
:
-
vs. Biais algorithmique: Le biais des ensembles de données
est centré sur les données ; il implique que les entrées (ingrédients) sont erronées. Le biais algorithmique est centré sur le modèle ; il découle
de la conception de l'algorithme lui-même ou de l'
algorithme d'optimisation utilisé, qui peut
donner la priorité aux classes majoritaires afin de maximiser les mesures globales au détriment des groupes minoritaires.
-
vs. Biais dans l'IA: Il s'agit du
terme général qui englobe toutes les formes de préjugés dans l'intelligence artificielle, y compris les biais dans les ensembles de données, les
biais algorithmiques et les biais cognitifs introduits par les développeurs humains.
La lutte contre les biais dans les ensembles de données est un processus continu qui nécessite une vigilance dans la
collecte des données et le respect de
cadres tels que le
cadre de gestion des risques liés à l'IA du NIST.