Glossar

Datenvorverarbeitung

Meistern Sie die Datenvorverarbeitung für maschinelles Lernen. Lernen Sie Techniken wie Bereinigung, Skalierung und Kodierung, um die Modellgenauigkeit und -leistung zu steigern.

Datenvorverarbeitung ist ein entscheidender Schritt in der Machine Learning (ML)-Pipeline, der die Bereinigung, Transformation und Organisation von Rohdaten umfasst, um sie für das Training und den Aufbau von Modellen geeignet zu machen. Rohdaten aus der realen Welt sind oft unvollständig, inkonsistent und können Fehler enthalten. Die Vorverarbeitung wandelt diese unordentlichen Daten in ein sauberes, gut strukturiertes Format um, was für ein Modell unerlässlich ist, um effektiv zu lernen. Die Qualität der Vorhersagen eines Modells hängt stark von der Qualität der Daten ab, mit denen es trainiert wird, was die Datenvorverarbeitung zu einer grundlegenden Vorgehensweise macht, um eine hohe Genauigkeit und zuverlässige Leistung in KI-Systemen zu erzielen.

Wesentliche Aufgaben bei der Datenvorverarbeitung

Datenvorverarbeitung ist ein weit gefasster Begriff, der eine Vielzahl von Techniken zur Vorbereitung von Daten umfasst. Die spezifischen Schritte hängen vom Datensatz und der ML-Aufgabe ab, aber gängige Aufgaben sind:

Data Cleaning: Dies ist der Prozess der Identifizierung und Korrektur oder Entfernung von Fehlern, Inkonsistenzen und fehlenden Werten aus einem Datensatz. Dies kann das Ausfüllen fehlender Daten mithilfe statistischer Methoden oder das Entfernen doppelter Einträge umfassen. Saubere Daten sind der Eckpfeiler jedes zuverlässigen Modells.
Data Transformation: Dies beinhaltet das Ändern der Skala oder Verteilung von Daten. Eine gängige Technik ist die Normalisierung, die numerische Merkmale auf einen Standardbereich (z. B. 0 bis 1) skaliert, um zu verhindern, dass Merkmale mit größeren Skalen den Lernprozess dominieren. Weitere Informationen zu verschiedenen Skalierungsmethoden finden Sie in der Scikit-learn-Dokumentation zur Vorverarbeitung.
Feature Engineering: Dies ist der kreative Prozess der Erstellung neuer Features aus bestehenden, um die Modellleistung zu verbessern. Dies kann die Kombination von Features, deren Zerlegung oder die Verwendung von Domänenwissen umfassen, um aussagekräftigere Informationen zu extrahieren. Ein verwandtes Konzept ist die Merkmalsextraktion, die die Dimensionalität der Daten automatisch reduziert.
Kodierung kategorialer Daten: Viele ML-Algorithmen benötigen numerische Eingaben. Die Vorverarbeitung beinhaltet oft die Umwandlung kategorialer Daten (wie Textlabels) in ein numerisches Format durch Techniken wie One-Hot-Encoding.
Größenänderung und Augmentierung: Im Bereich Computer Vision (CV) beinhaltet die Vorverarbeitung das Anpassen der Bildgröße auf eine einheitliche Dimension. Darauf kann eine Datenerweiterung (Data Augmentation) folgen, die den Datensatz künstlich erweitert, indem modifizierte Versionen von Bildern erstellt werden.

KI/ML-Anwendungen in der realen Welt

Datenvorverarbeitung ist eine universelle Anforderung in allen KI-Bereichen. Ihre Anwendung ist entscheidend für den Erfolg sowohl bei einfachen als auch bei komplexen Aufgaben.

Medizinische Bildanalyse: Bevor ein YOLO-Modell trainiert werden kann, um Tumore in MRT-Scans aus einem Datensatz wie dem Brain Tumor Dataset zu erkennen, müssen die Bilder vorverarbeitet werden. Dies umfasst die Normalisierung der Pixelintensitätswerte, um Unterschiede in den Scangeräten zu berücksichtigen, die Anpassung aller Bilder an eine einheitliche Eingangsgröße, die von der Backbone des Modells benötigt wird, und die Bereinigung des Datensatzes, um beschädigte Dateien oder falsch beschriftete Beispiele zu entfernen. Dies stellt sicher, dass das Convolutional Neural Network (CNN) die tatsächlichen pathologischen Merkmale eines Modells und nicht Variationen in der Bildgebung lernt. Weitere Informationen hierzu finden Sie in unserem Blog über die Verwendung von YOLO zur Tumorerfassung.
KI-gestützte Einzelhandelsvorhersage: Für ein Modell, das die Kundennachfrage im Einzelhandel vorhersagt, enthalten Rohverkaufsdaten oft fehlende Transaktionsdatensätze, inkonsistente Produktnamen und Merkmale auf sehr unterschiedlichen Skalen (z. B. 'Artikelpreis' vs. 'Anzahl der verkauften Artikel'). Die Vorverarbeitung umfasst hier die Imputation fehlender Verkaufszahlen, die Standardisierung von Produktnamen und die Normalisierung numerischer Merkmale, so dass der Predictive-Modeling-Algorithmus die Bedeutung jedes Faktors effektiv gewichten kann. Ein Überblick über die Vorverarbeitung für Unternehmen hebt diese Schritte hervor.