Glossar

Datenbereinigung

Meisterhafte Datenbereinigung für KI- und ML-Projekte. Lernen Sie Techniken zur Fehlerbehebung, zur Verbesserung der Datenqualität und zur effektiven Steigerung der Modellleistung!

Bei der Datenbereinigung werden beschädigte, ungenaue, unvollständige oder inkonsistente Daten aus einem Datensatz identifiziert und korrigiert oder entfernt. Dies ist ein wichtiger erster Schritt in jedem Arbeitsablauf des maschinellen Lernens (ML), da die Qualität der Trainingsdaten direkt die Leistung und Zuverlässigkeit des resultierenden Modells bestimmt. Nach dem Prinzip "Garbage in, garbage out" stellt die Datenbereinigung sicher, dass Modelle wie Ultralytics YOLO auf genauen und konsistenten Informationen trainiert werden, was zu einer besseren Genauigkeit und zuverlässigeren Vorhersagen führt. Ohne ordnungsgemäße Bereinigung können zugrunde liegende Probleme in den Daten zu verzerrten Ergebnissen und schlechter Modellverallgemeinerung führen.

Wichtige Aufgaben der Datenbereinigung

Der Prozess der Datenbereinigung umfasst mehrere verschiedene Aufgaben, um unterschiedliche Arten von Datenqualitätsproblemen zu lösen. Diese Aufgaben sind oft iterativ und erfordern möglicherweise domänenspezifisches Wissen.

  • Umgang mit fehlenden Werten: Datensätze enthalten oft fehlende Einträge, die durch Entfernen der unvollständigen Datensätze oder durch Imputation (Auffüllen) der fehlenden Werte mit Hilfe statistischer Methoden wie Mittelwert, Median oder fortgeschrittener Vorhersagemodelle behandelt werden können. Ein Leitfaden zum Umgang mit fehlenden Daten kann weitere Einblicke geben.
  • Berichtigung ungenauer Daten: Dazu gehört die Korrektur von Tippfehlern, Messungsinkonsistenzen (z. B. lbs vs. kg) und faktisch falschen Informationen. Häufig werden Regeln zur Datenvalidierung angewendet, um diese Fehler zu erkennen.
  • Entfernen von Duplikaten: Doppelte Datensätze können ein Modell verfälschen, indem sie bestimmten Datenpunkten ein übermäßiges Gewicht verleihen. Die Identifizierung und Entfernung dieser redundanten Einträge ist ein Standardschritt.
  • Umgang mit Ausreißern: Ausreißer sind Datenpunkte, die erheblich von anderen Beobachtungen abweichen. Je nach Ursache müssen sie entfernt, korrigiert oder transformiert werden, um zu verhindern, dass sie sich negativ auf den Modellbildungsprozess auswirken. Techniken zur Erkennung von Ausreißern werden hierfür häufig eingesetzt.
  • Standardisierung von Daten: Hier geht es darum, sicherzustellen, dass die Daten einem einheitlichen Format entsprechen. Beispiele hierfür sind die Standardisierung von Datumsformaten, Textformaten (z. B. Umwandlung von Text in Kleinbuchstaben) und die Umrechnung von Einheiten. Konsistente Datenqualitätsstandards sind für den Erfolg entscheidend.

Real-World AI/ML-Anwendungen

  1. Medizinische Bildanalyse: Beim Training eines Objekterkennungsmodells auf einem Datensatz wie dem Hirntumordatensatz ist die Datenbereinigung unerlässlich. Dazu gehören das Entfernen beschädigter oder minderwertiger Bilddateien, die Standardisierung aller Bilder auf eine einheitliche Auflösung und ein einheitliches Format sowie die Überprüfung, ob die Patientenbeschriftungen und -kommentare korrekt sind. Auf diese Weise wird sichergestellt, dass das Modell aus klaren, zuverlässigen Informationen lernt, was für die Entwicklung zuverlässiger Diagnoseinstrumente im Bereich der KI im Gesundheitswesen unerlässlich ist. Das National Institute of Biomedical Imaging and Bioengineering (NIBIB) unterstreicht die Bedeutung von Qualitätsdaten in der medizinischen Forschung.
  2. KI für die Bestandsverwaltung im Einzelhandel: Im KI-gesteuerten Einzelhandel überwachen Computer-Vision-Modelle den Regalbestand mit Hilfe von Kamerabildern. Die Datenbereinigung ist notwendig, um unscharfe Bilder herauszufiltern, Bilder zu entfernen, in denen Produkte von Kunden verdeckt werden, und Produktzählungen aus mehreren Kamerawinkeln zu de-duplizieren. Durch die Korrektur dieser Probleme wird sichergestellt, dass das Inventarsystem einen genauen Überblick über die Lagerbestände hat, was eine intelligentere Auffüllung der Bestände ermöglicht und die Verschwendung reduziert. Unternehmen wie Google Cloud bieten Analyselösungen an, bei denen die Datenqualität an erster Stelle steht.

Datenbereinigung vs. verwandte Konzepte

Es ist wichtig, die Datenbereinigung von den damit verbundenen Schritten der Datenaufbereitung zu unterscheiden:

  • Vorverarbeitung von Daten: Dies ist ein breiterer Begriff, der die Datenbereinigung umfasst, aber auch andere Transformationen zur Vorbereitung von Daten für ML-Modelle einschließt, z. B. Normalisierung (Skalierung numerischer Merkmale), Kodierung kategorischer Variablen und Merkmalsextraktion. Während sich die Bereinigung auf die Behebung von Fehlern konzentriert, liegt der Schwerpunkt der Vorverarbeitung auf der Formatierung der Daten für Algorithmen. Weitere Einzelheiten finden Sie im Ultralytics-Leitfaden zur Vorverarbeitung von kommentierten Daten.
  • Datenbeschriftung: Dies ist der Prozess des Hinzufügens von informativen Tags oder Anmerkungen (Labels) zu Rohdaten, wie z. B. das Zeichnen von Begrenzungsrahmen um Objekte in Bildern für das überwachte Lernen. Die Datenbereinigung kann die Korrektur falscher Beschriftungen beinhalten, die bei Qualitätsprüfungen festgestellt wurden, unterscheidet sich jedoch von der ursprünglichen Beschriftung. Der Leitfaden zur Datenerfassung und -beschriftung bietet Einblicke in die Beschriftung.
  • Datenerweiterung: Diese Technik vergrößert künstlich den Umfang und die Vielfalt des Trainingsdatensatzes, indem modifizierte Kopien vorhandener Daten erstellt werden (z. B. durch Drehen von Bildern oder Änderung der Helligkeit). Die Datenerweiterung zielt darauf ab, die Modellgeneralisierung und Robustheit zu verbessern, während die Datenbereinigung sich auf die Verbesserung der Qualität der Originaldaten konzentriert. Erfahren Sie mehr in The Ultimate Guide to Data Augmentation.

Die Datenbereinigung ist ein grundlegendes, oft iteratives Verfahren, das die Zuverlässigkeit und Leistung von KI-Systemen erheblich steigert, indem es sicherstellt, dass die zugrunde liegenden Daten einwandfrei sind. Tools wie die Pandas-Bibliothek werden häufig für die Datenmanipulation und -bereinigung in Python-basierten ML-Workflows verwendet. Die Sicherstellung der Datenqualität durch rigorose Bereinigung ist für die Entwicklung vertrauenswürdiger KI unerlässlich, insbesondere bei der Arbeit mit komplexen Computer-Vision-Aufgaben (CV) oder großen Benchmark-Datensätzen wie COCO oder ImageNet. Plattformen wie Ultralytics HUB können dabei helfen, hochwertige Datensätze während des gesamten Projektlebenszyklus zu verwalten und zu pflegen.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert