Erfahren Sie, wie Sie Dataset Bias in der KI identifizieren und reduzieren können, um faire, genaue und zuverlässige Modelle für maschinelles Lernen für reale Anwendungen zu gewährleisten.
Datensatzverzerrung bezieht sich auf einen systematischen Fehler oder ein Ungleichgewicht in den Informationen, die zum Trainieren von Modelle des maschinellen Lernens (ML), was zu Systemen führen, die die reale Umgebung, für die sie gedacht sind, nicht genau widerspiegeln. Im Kontext von Computer Vision (CV) lernen Modelle, Muster zu erkennen Muster ausschließlich auf der Grundlage ihrer Trainingsdaten zu erkennen. Wenn diese Grundlage verzerrt ist - beispielsweise durch eine Überrepräsentation bestimmter demografischer oder umweltbezogener Bedingungen - wird das wird das Modell diese blinden Flecken "erben". Dieses Phänomen ist eine der Hauptursachen für eine schlechte Generalisierung, bei der ein KI-System in Tests gut abschneidet, aber beim Einsatz für Echtzeit-Schlussfolgerungen in verschiedenen Szenarien.
Zu verstehen, woher Vorurteile kommen, ist der erste Schritt zur Prävention. Sie schleichen sich oft in den frühen Phasen der Datenerfassung und -kommentierung Prozesses:
Die Folgen der Verzerrung von Datensätzen können von geringfügigen Unannehmlichkeiten bis hin zu kritischen Sicherheitsmängeln in hochsensiblen Industrien.
Obwohl sie oft zusammen diskutiert werden, ist es hilfreich, zwischen Datensatzverzerrungen und algorithmischer Verzerrung.
Beide tragen zu dem umfassenderen Problem der Voreingenommenheit in der KI bei, und ist von zentraler Bedeutung für die KI-Ethik und Fairness in der KI.
Die Entwickler können verschiedene Techniken anwenden, um Verzerrungen zu erkennen und zu verringern. Die Verwendung von synthetischer Daten kann helfen, Lücken zu füllen, wo reale Daten knapp sind. Außerdem kann eine rigorose Modellbewertung, die die Leistung nach Leistung nach Untergruppen aufgeschlüsselt wird (und nicht nur ein Gesamtdurchschnitt), können versteckte Mängel aufgedeckt werden.
Eine weitere leistungsstarke Methode ist die Datenerweiterung. Durch durch künstliche Veränderung von Trainingsbildern - Änderung von Farben, Drehung oder Beleuchtung - können die Entwickler das Modell zwingen, robustere Merkmale zu lernen robustere Merkmale zu erlernen, anstatt sich auf zufällige Details zu verlassen.
Das folgende Beispiel zeigt, wie die Augmentation während des Trainings mit Ultralytics YOLO11 um Verzerrungen im Zusammenhang mit der Objekt Orientierung oder Beleuchtungsbedingungen:
from ultralytics import YOLO
# Load a YOLO11 model
model = YOLO("yolo11n.pt")
# Train with augmentations to improve generalization
# 'fliplr' handles left-right orientation bias
# 'hsv_v' varies brightness to handle lighting bias
model.train(
data="coco8.yaml",
epochs=5,
fliplr=0.5, # 50% probability of flipping image horizontally
hsv_v=0.4, # Vary image brightness (value) by +/- 40%
)
Durch proaktives Management der Datensatzqualität und den Einsatz von Tools wie Augmentierungs-Hyperparametern, können Ingenieure verantwortungsvolle KI Systeme entwickeln, die für alle zuverlässig funktionieren. Weitere Informationen zu Fairness-Metriken finden Sie in Ressourcen wie IBMs AI Fairness 360 bieten ausgezeichnete Open-Source Toolkits.