Datenvorverarbeitung
Meistern Sie die Datenvorverarbeitung für maschinelles Lernen. Lernen Sie Techniken wie Bereinigung, Skalierung und Kodierung, um die Modellgenauigkeit und -leistung zu steigern.
Datenvorverarbeitung ist ein entscheidender Schritt in der Machine Learning (ML)-Pipeline, der die Bereinigung, Transformation und Organisation von Rohdaten umfasst, um sie für das Training und den Aufbau von Modellen geeignet zu machen. Rohdaten aus der realen Welt sind oft unvollständig, inkonsistent und können Fehler enthalten. Die Vorverarbeitung wandelt diese unordentlichen Daten in ein sauberes, gut strukturiertes Format um, was für ein Modell unerlässlich ist, um effektiv zu lernen. Die Qualität der Vorhersagen eines Modells hängt stark von der Qualität der Daten ab, mit denen es trainiert wird, was die Datenvorverarbeitung zu einer grundlegenden Vorgehensweise macht, um eine hohe Genauigkeit und zuverlässige Leistung in KI-Systemen zu erzielen.
Wesentliche Aufgaben bei der Datenvorverarbeitung
Datenvorverarbeitung ist ein weit gefasster Begriff, der eine Vielzahl von Techniken zur Vorbereitung von Daten umfasst. Die spezifischen Schritte hängen vom Datensatz und der ML-Aufgabe ab, aber gängige Aufgaben sind:
- Data Cleaning: Dies ist der Prozess der Identifizierung und Korrektur oder Entfernung von Fehlern, Inkonsistenzen und fehlenden Werten aus einem Datensatz. Dies kann das Ausfüllen fehlender Daten mithilfe statistischer Methoden oder das Entfernen doppelter Einträge umfassen. Saubere Daten sind der Eckpfeiler jedes zuverlässigen Modells.
- Data Transformation: Dies beinhaltet das Ändern der Skala oder Verteilung von Daten. Eine gängige Technik ist die Normalisierung, die numerische Merkmale auf einen Standardbereich (z. B. 0 bis 1) skaliert, um zu verhindern, dass Merkmale mit größeren Skalen den Lernprozess dominieren. Weitere Informationen zu verschiedenen Skalierungsmethoden finden Sie in der Scikit-learn-Dokumentation zur Vorverarbeitung.
- Feature Engineering: Dies ist der kreative Prozess der Erstellung neuer Features aus bestehenden, um die Modellleistung zu verbessern. Dies kann die Kombination von Features, deren Zerlegung oder die Verwendung von Domänenwissen umfassen, um aussagekräftigere Informationen zu extrahieren. Ein verwandtes Konzept ist die Merkmalsextraktion, die die Dimensionalität der Daten automatisch reduziert.
- Kodierung kategorialer Daten: Viele ML-Algorithmen benötigen numerische Eingaben. Die Vorverarbeitung beinhaltet oft die Umwandlung kategorialer Daten (wie Textlabels) in ein numerisches Format durch Techniken wie One-Hot-Encoding.
- Größenänderung und Augmentierung: Im Bereich Computer Vision (CV) beinhaltet die Vorverarbeitung das Anpassen der Bildgröße auf eine einheitliche Dimension. Darauf kann eine Datenerweiterung (Data Augmentation) folgen, die den Datensatz künstlich erweitert, indem modifizierte Versionen von Bildern erstellt werden.
KI/ML-Anwendungen in der realen Welt
Datenvorverarbeitung ist eine universelle Anforderung in allen KI-Bereichen. Ihre Anwendung ist entscheidend für den Erfolg sowohl bei einfachen als auch bei komplexen Aufgaben.
- Medizinische Bildanalyse: Bevor ein YOLO-Modell trainiert werden kann, um Tumore in MRT-Scans aus einem Datensatz wie dem Brain Tumor Dataset zu erkennen, müssen die Bilder vorverarbeitet werden. Dies umfasst die Normalisierung der Pixelintensitätswerte, um Unterschiede in den Scangeräten zu berücksichtigen, die Anpassung aller Bilder an eine einheitliche Eingangsgröße, die von der Backbone des Modells benötigt wird, und die Bereinigung des Datensatzes, um beschädigte Dateien oder falsch beschriftete Beispiele zu entfernen. Dies stellt sicher, dass das Convolutional Neural Network (CNN) die tatsächlichen pathologischen Merkmale eines Modells und nicht Variationen in der Bildgebung lernt. Weitere Informationen hierzu finden Sie in unserem Blog über die Verwendung von YOLO zur Tumorerfassung.
- KI-gestützte Einzelhandelsvorhersage: Für ein Modell, das die Kundennachfrage im Einzelhandel vorhersagt, enthalten Rohverkaufsdaten oft fehlende Transaktionsdatensätze, inkonsistente Produktnamen und Merkmale auf sehr unterschiedlichen Skalen (z. B. 'Artikelpreis' vs. 'Anzahl der verkauften Artikel'). Die Vorverarbeitung umfasst hier die Imputation fehlender Verkaufszahlen, die Standardisierung von Produktnamen und die Normalisierung numerischer Merkmale, so dass der Predictive-Modeling-Algorithmus die Bedeutung jedes Faktors effektiv gewichten kann. Ein Überblick über die Vorverarbeitung für Unternehmen hebt diese Schritte hervor.
Datenvorverarbeitung vs. verwandte Konzepte
Es ist hilfreich, die Datenvorverarbeitung von anderen verwandten Datenmanagementbegriffen zu unterscheiden.
- Data Cleaning: Wie bereits erwähnt, ist Data Cleaning eine Teilmenge der Datenvorverarbeitung. Während die Vorverarbeitung den gesamten Prozess der Vorbereitung von Daten für ein Modell darstellt, konzentriert sich die Bereinigung speziell auf die Behebung von Fehlern, den Umgang mit fehlenden Werten und die Beseitigung von Inkonsistenzen innerhalb des Rohdatensatzes.
- Data Augmentation: Data Augmentation ist eine Technik, die verwendet wird, um die Größe der Trainingsdaten künstlich zu erhöhen. Sie ist zwar Teil der Vorbereitung von Daten für das Training, wird aber typischerweise nachdem anfängliche Vorverarbeitungsschritte wie Bereinigung und Größenänderung am ursprünglichen Datensatz bereits abgeschlossen wurden, angewendet. Das Ziel der Augmentierung ist die Verbesserung der Modellgeneralisierung, während die Vorverarbeitung darauf abzielt, die ursprünglichen Daten nutzbar zu machen.
- Data Analytics: Data Analytics ist ein wesentlich breiteres Feld, das die Untersuchung von Datensätzen umfasst, um Schlussfolgerungen zu ziehen und die Entscheidungsfindung zu unterstützen. Die Datenvorverarbeitung ist der grundlegende erste Schritt innerhalb eines Data-Analytics-Workflows, der auch explorative Datenanalyse (EDA), Modellierung und Datenvisualisierung umfasst.
Plattformen wie Ultralytics HUB können bei der Verwaltung von Datensätzen und der Straffung des ML-Lebenszyklus helfen, von der Vorbereitung der Daten bis zur Modellbereitstellung. Der Leitfaden zur Vorverarbeitung annotierter Daten bietet weitere praktische Einblicke.