Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Biais de l'ensemble de données

Apprenez à identifier et à atténuer les biais dans les ensembles de données d'IA afin de garantir des modèles d'apprentissage automatique équitables, précis et fiables pour les applications du monde réel.

Le biais de l'ensemble des données fait référence à une erreur systématique ou à un déséquilibre dans les informations utilisées pour former les modèles d'apprentissage automatique. les modèles d'apprentissage automatique (ML), ce qui systèmes qui ne reflètent pas fidèlement l'environnement réel qu'ils sont censés servir. Dans le contexte de la vision par ordinateur (VA), les modèles apprennent à reconnaître des modèles en se basant entièrement sur leurs données d'apprentissage. Si cette base est Si cette base est faussée - par exemple, par une surreprésentation d'une condition démographique ou environnementale spécifique - le modèle "héritera" de ces zones d'ombre. le modèle "héritera" de ces zones d'ombre. Ce phénomène est l'une des principales causes d'une mauvaise généralisation. système d'IA donne de bons résultats lors des tests, mais échoue lorsqu'il est déployé pour l'inférence en temps réel dans divers scénarios. l 'inférence en temps réel dans divers scénarios.

Sources courantes de biais dans les ensembles de données

Comprendre l'origine des préjugés est le premier pas vers la prévention. Les préjugés s'insinuent souvent dans les premières étapes de la vie de l'entreprise. de la collecte et de l'annotation des données d'annotation :

  • Biais de sélection : il se produit lorsque les données recueillies ne représentent pas la population cible de manière aléatoire. Par exemple, la collecte d'images pour un système de reconnaissance faciale auprès d'étudiants universitaires, la distribution des âges serait faussée et le modèle ne serait pas assez performant pour les adultes plus âgés.
  • Biais de représentation : même si les données sont collectées de manière générale, certains groupes peuvent être significativement sous-représentés. sous-représentés. Un ensemble de données de référence pour la de données de référence pour la planification urbaine qui présente principalement des villes européennes peut ne pas analyser avec précision l'infrastructure des métropoles asiatiques ou africaines en raison de leurs styles architecturaux distincts. asiatiques ou africaines en raison de leurs styles architecturaux différents.
  • Biais d'étiquetage : la subjectivité lors de l'étiquetage des données peut introduire des préjugés humains. l'étiquetage des données peut introduire des préjugés humains. Si les annotateurs annotateurs classent systématiquement mal certains objets en raison d'une ambiguïté ou d'un manque de directives claires, le modèle apprendra ces erreurs comme vérité de base. modèle apprendra ces erreurs en tant que vérité de base.

Exemples concrets et impact

Les conséquences d'un biais dans les données peuvent aller d'inconvénients mineurs à des défaillances de sécurité critiques dans des secteurs à forts enjeux. de sécurité dans des secteurs à forts enjeux.

  1. Diagnostic médical : En l 'IA dans les soins de santé, les modèles sont utilisés pour des pathologies telles que le cancer de la peau. Si l'ensemble de données d'entraînement est principalement constitué d'images de teintes de peau plus claires, la précision du modèle diminue considérablement lorsqu'il s'agit d'analyser des patients. du modèle diminue considérablement lorsqu'il analyse des patients patients à la peau plus foncée. Cette disparité souligne l'importance de disposer d'ensembles de données d'analyse d'images médicales afin de garantir des soins équitables aux patients.
  2. Conduite autonome : Les voitures auto-conduites s'appuient fortement sur détection d'objets pour identifier les piétons et les obstacles. Si un modèle est formé principalement sur des données collectées dans des climats ensoleillés et secs, il risque de ne pas detect dangers en cas de neige ou de fortes pluies. les dangers en cas de neige ou de fortes pluies. Il s'agit là d'un exemple classique de la façon dont une variance environnementale limitée crée de dangereuses lacunes en matière de sécurité dans les véhicules autonomes. dangereuses pour la sécurité des véhicules autonomes.

Biais de l'ensemble de données vs. Biais algorithmique

Bien qu'ils soient souvent abordés ensemble, il est utile de distinguer les biais liés à l'ensemble des données des biais algorithmiques. biais algorithmique.

  • Le biais de l'ensemble des données est centré sur les données ; il implique que les intrants (ingrédients) sont défectueux. Le modèle peut apprendre parfaitement, mais il apprend à partir d'une réalité déformée.
  • Le biais algorithmique est centré sur le modèle ; il provient de la conception de l'algorithme lui-même ou de l'algorithme d'optimisation utilisé. algorithme d'optimisation utilisé. Par exemple, un modèle peut être mathématiquement enclin à donner la priorité aux classes majoritaires pour maximiser la précision globale, en ignorant les cas marginaux. cas.

Les deux contribuent à la question plus large des préjugés dans l'IA, et leur prise en compte est essentielle pour l'éthique de l'IA. l'éthique de l'IA et de l'équité dans l'IA. l 'équité dans l'IA.

Stratégies d’atténuation

Les développeurs peuvent employer plusieurs techniques pour identifier et réduire les biais. L'utilisation de données synthétiques peut aider à combler les lacunes lorsque les données réelles sont rares. En outre, une évaluation rigoureuse du modèle qui décompose performance par sous-groupe (plutôt qu'une simple moyenne globale) peut révéler des déficiences cachées.

L'augmentation des données est une autre méthode efficace. En modifiant En modifiant artificiellement les images d'entraînement - en changeant les couleurs, la rotation ou l'éclairage - les développeurs peuvent forcer le modèle à apprendre des caractéristiques plus robustes plutôt que de s'appuyer sur des détails accessoires biaisés. des caractéristiques plus robustes plutôt que de s'appuyer sur des détails accessoires biaisés.

L'exemple suivant montre comment appliquer l'augmentation pendant la formation avec Ultralytics YOLO11 pour aider à atténuer les biais liés à l'orientation à l'orientation de l'objet ou aux conditions d'éclairage :

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
    data="coco8.yaml",
    epochs=5,
    fliplr=0.5,  # 50% probability of flipping image horizontally
    hsv_v=0.4,  # Vary image brightness (value) by +/- 40%
)

En gérant de manière proactive la qualité des ensembles de données et en utilisant des outils tels que les hyperparamètres d'augmentation, les ingénieurs peuvent construire une systèmes d'IA responsables qui fonctionnent de manière fiable pour tout le monde. Pour en savoir plus sur les mesures d'équité, des ressources telles que l 'AI Fairness 360 d'IBM fournissent d'excellentes boîtes à outils d'excellentes boîtes à outils à source ouverte.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant