Apprenez à identifier et à atténuer les biais dans les ensembles de données d'IA afin de garantir des modèles d'apprentissage automatique équitables, précis et fiables pour les applications du monde réel.
Le biais de l'ensemble des données fait référence à une erreur systématique ou à un déséquilibre dans les informations utilisées pour former les modèles d'apprentissage automatique. les modèles d'apprentissage automatique (ML), ce qui systèmes qui ne reflètent pas fidèlement l'environnement réel qu'ils sont censés servir. Dans le contexte de la vision par ordinateur (VA), les modèles apprennent à reconnaître des modèles en se basant entièrement sur leurs données d'apprentissage. Si cette base est Si cette base est faussée - par exemple, par une surreprésentation d'une condition démographique ou environnementale spécifique - le modèle "héritera" de ces zones d'ombre. le modèle "héritera" de ces zones d'ombre. Ce phénomène est l'une des principales causes d'une mauvaise généralisation. système d'IA donne de bons résultats lors des tests, mais échoue lorsqu'il est déployé pour l'inférence en temps réel dans divers scénarios. l 'inférence en temps réel dans divers scénarios.
Comprendre l'origine des préjugés est le premier pas vers la prévention. Les préjugés s'insinuent souvent dans les premières étapes de la vie de l'entreprise. de la collecte et de l'annotation des données d'annotation :
Les conséquences d'un biais dans les données peuvent aller d'inconvénients mineurs à des défaillances de sécurité critiques dans des secteurs à forts enjeux. de sécurité dans des secteurs à forts enjeux.
Bien qu'ils soient souvent abordés ensemble, il est utile de distinguer les biais liés à l'ensemble des données des biais algorithmiques. biais algorithmique.
Les deux contribuent à la question plus large des préjugés dans l'IA, et leur prise en compte est essentielle pour l'éthique de l'IA. l'éthique de l'IA et de l'équité dans l'IA. l 'équité dans l'IA.
Les développeurs peuvent employer plusieurs techniques pour identifier et réduire les biais. L'utilisation de données synthétiques peut aider à combler les lacunes lorsque les données réelles sont rares. En outre, une évaluation rigoureuse du modèle qui décompose performance par sous-groupe (plutôt qu'une simple moyenne globale) peut révéler des déficiences cachées.
L'augmentation des données est une autre méthode efficace. En modifiant En modifiant artificiellement les images d'entraînement - en changeant les couleurs, la rotation ou l'éclairage - les développeurs peuvent forcer le modèle à apprendre des caractéristiques plus robustes plutôt que de s'appuyer sur des détails accessoires biaisés. des caractéristiques plus robustes plutôt que de s'appuyer sur des détails accessoires biaisés.
L'exemple suivant montre comment appliquer l'augmentation pendant la formation avec Ultralytics YOLO11 pour aider à atténuer les biais liés à l'orientation à l'orientation de l'objet ou aux conditions d'éclairage :
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
data="coco8.yaml",
epochs=5,
fliplr=0.5, # 50% probability of flipping image horizontally
hsv_v=0.4, # Vary image brightness (value) by +/- 40%
)
En gérant de manière proactive la qualité des ensembles de données et en utilisant des outils tels que les hyperparamètres d'augmentation, les ingénieurs peuvent construire une systèmes d'IA responsables qui fonctionnent de manière fiable pour tout le monde. Pour en savoir plus sur les mesures d'équité, des ressources telles que l 'AI Fairness 360 d'IBM fournissent d'excellentes boîtes à outils d'excellentes boîtes à outils à source ouverte.