Glossar

Datensatz Verzerrung

Erfahren Sie, wie Sie Verzerrungen von Datensätzen in der künstlichen Intelligenz erkennen und abmildern können, um faire, genaue und zuverlässige maschinelle Lernmodelle für reale Anwendungen zu gewährleisten.

Datensatzverzerrungen treten auf, wenn die für die Modellschulung verwendeten Daten die reale Umgebung, in der das Modell zum Einsatz kommt, nicht genau repräsentieren. Diese unausgewogene oder verzerrte Darstellung ist ein kritisches Problem beim maschinellen Lernen (ML), da Modelle die Muster und Fehler in ihren Trainingsdaten lernen. Wenn die Daten verzerrt sind, erbt das resultierende KI-System diese Verzerrung und verstärkt sie oft noch, was zu ungenauen, unzuverlässigen und ungerechten Ergebnissen führt. Die Beseitigung von Datenverzerrungen ist ein Eckpfeiler der Entwicklung verantwortungsvoller KI und der Wahrung der KI-Ethik.

Häufige Quellen von Datensatzverzerrungen

Verzerrungen können in verschiedenen Phasen des Datenflusses auftreten, von der Erhebung bis zur Verarbeitung. Einige häufige Arten sind:

  • Selektionsverzerrung: Diese tritt auf, wenn die Daten nicht zufällig aus der Zielpopulation entnommen werden. Wenn beispielsweise für ein Einzelhandelsanalysemodell nur Daten aus einkommensstarken Stadtvierteln gesammelt werden, führt dies zu einer Verzerrung der Auswahl, so dass ein Modell entsteht, das das Verhalten anderer Kundengruppen nicht versteht.
  • Repräsentationsverzerrung: Dies geschieht, wenn bestimmte Untergruppen im Datensatz unter- oder überrepräsentiert sind. Ein Benchmark-Datensatz für die Verkehrsüberwachung, der hauptsächlich Bilder vom Tag enthält, führt dazu, dass ein Modell bei der Erkennung von Fahrzeugen bei Nacht schlecht abschneidet.
  • Messfehler: Diese entstehen durch systematische Fehler bei der Datenerfassung oder durch die Messinstrumente selbst. So führt beispielsweise die Verwendung von hochauflösenden Kameras für eine bestimmte Bevölkerungsgruppe und von niedrig auflösenden Kameras für eine andere Gruppe zu Messfehlern in einem Computer-Vision-Datensatz.
  • Voreingenommenheit bei der Beschriftung: Sie ergibt sich aus den subjektiven Einschätzungen menschlicher Kommentatoren während des Datenbeschriftungsprozesses. Vorgefasste Meinungen können die Anwendung von Beschriftungen beeinflussen, insbesondere bei Aufgaben, die eine subjektive Interpretation erfordern, was sich auf das Lernen des Modells auswirken kann.

Beispiele aus der Praxis

  1. Gesichtserkennungssysteme: Frühe kommerzielle Gesichtserkennungssysteme waren bekanntlich weniger genau bei Frauen und People of Color. Forschungsarbeiten wie das Gender-Shades-Projekt haben gezeigt, dass dies vor allem darauf zurückzuführen ist, dass die Trainingsdatensätze überwiegend aus Bildern von weißen Männern bestehen. Modelle, die auf der Grundlage dieser verzerrten Daten trainiert wurden, konnten nicht über verschiedene demografische Gruppen hinweg verallgemeinert werden.
  2. Medizinische Diagnose: Ein KI-Modell, das für die medizinische Bildanalyse entwickelt wurde, z. B. für die Erkennung von Tumoren in Röntgenbildern, könnte auf Daten aus einem einzigen Krankenhaus trainiert werden. Dieses Modell könnte Merkmale lernen, die für die Bildgebungsgeräte dieses Krankenhauses spezifisch sind. Wenn es in einem anderen Krankenhaus mit anderen Geräten eingesetzt wird, könnte seine Leistung aufgrund von Datenabweichungen erheblich sinken. Dies unterstreicht die Notwendigkeit unterschiedlicher Datenquellen für KI im Gesundheitswesen.

Dataset Bias vs. Algorithmic Bias

Es ist wichtig, zwischen einer Verzerrung des Datensatzes und einer algorithmischen Verzerrung zu unterscheiden.

  • Dataset Bias hat seinen Ursprung in den Daten selbst. Die Daten sind fehlerhaft, bevor das Modell sie überhaupt sieht, was sie zu einem grundlegenden Problem macht.
  • Algorithmische Verzerrungen können sich aus der Architektur eines Modells oder dem Optimierungsprozess ergeben, der systematisch bestimmte Ergebnisse gegenüber anderen bevorzugen kann, selbst bei perfekt ausgewogenen Daten.

Die beiden sind jedoch eng miteinander verbunden. Die Verzerrung von Datensätzen ist eine der häufigsten Ursachen für algorithmische Verzerrungen. Ein Modell, das auf voreingenommenen Daten trainiert wurde, wird mit ziemlicher Sicherheit voreingenommene Vorhersagen machen und damit einen voreingenommenen Algorithmus erzeugen. Daher muss die Gewährleistung von Fairness in der KI mit der Beseitigung von Verzerrungen in den Daten beginnen.

Strategien zur Schadensbegrenzung

Die Entschärfung von Datensatzverzerrungen ist ein fortlaufender Prozess, der eine sorgfältige Planung und Ausführung während des gesamten Lebenszyklus von Machine Learning Operations (MLOps) erfordert.

  • Durchdachte Datenerhebung: Bemühen Sie sich um vielfältige und repräsentative Datenquellen, die die reale Welt widerspiegeln. Die Befolgung eines strukturierten Leitfadens für die Datenerfassung und -kommentierung ist unerlässlich. Die Dokumentation von Datensätzen mithilfe von Rahmenwerken wie Data Sheets for Datasets fördert die Transparenz.
  • Datenerweiterung und -synthese: Verwenden Sie Techniken wie die Übererfassung unterrepräsentierter Gruppen, die Anwendung gezielter Datenerweiterung oder die Erzeugung synthetischer Daten, um den Datensatz auszugleichen. Ultralytics-Modelle unterstützen von Haus aus eine Vielzahl leistungsstarker Erweiterungsmethoden.
  • Tools zur Überprüfung von Verzerrungen: Verwenden Sie Tools wie das WENN-Tool von Google und Open-Source-Bibliotheken wie Fairlearn, um Datensätze und Modelle auf mögliche Verzerrungen zu prüfen.
  • Strenge Modellbewertung: Neben den allgemeinen Genauigkeitsmetriken sollte die Modellleistung in verschiedenen demografischen oder umweltbezogenen Untergruppen bewertet werden. Es empfiehlt sich, die Ergebnisse mit Methoden wie Modellkarten zu dokumentieren, um die Transparenz zu wahren.
  • Nutzen Sie moderne Plattformen: Plattformen wie Ultralytics HUB bieten integrierte Tools für die Verwaltung von Datensätzen, die Visualisierung und das Training von Modellen wie Ultralytics YOLO11. Dies hilft Entwicklern beim Aufbau gerechterer Systeme, indem es den Prozess der Erstellung und Bewertung von Modellen auf Basis unterschiedlicher Daten vereinfacht.

Indem sie proaktiv gegen die Verzerrung von Datensätzen vorgehen, können Entwickler robustere, zuverlässigere und ethischere KI-Systeme entwickeln. Dieses Thema wird häufig auf führenden Konferenzen wie der ACM Conference on Fairness, Accountability, and Transparency (FAccT) diskutiert.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert