Technische Merkmale
Steigern Sie die Genauigkeit des maschinellen Lernens mit fachkundigem Feature Engineering. Lernen Sie Techniken zur Erstellung, Umwandlung und Auswahl aussagekräftiger Merkmale.
Feature-Engineering ist der entscheidende Prozess der Auswahl, Umwandlung und Erstellung von Merkmalen aus Rohdaten, um sie für Modelle des maschinellen Lernens (ML) besser geeignet zu machen. Dabei werden Fachwissen und Datenanalysetechniken eingesetzt, um Eingaben zu erstellen, die das zugrunde liegende Problem besser repräsentieren und letztlich die Modellleistung, Genauigkeit und Interpretierbarkeit verbessern. Stellen Sie sich vor, Sie bereiten die besten Zutaten für ein Rezept vor; selbst der beste Koch (oder das beste Modell) hat mit minderwertigen Zutaten(Trainingsdaten) zu kämpfen. Dieser Schritt wird oft als einer der kritischsten und zeitaufwändigsten Teile des ML-Workflows angesehen.
Warum ist Feature Engineering wichtig?
Aus der realen Welt gesammelte Rohdaten sind selten für die direkte Verwendung in ML-Algorithmen geeignet. Sie können fehlende Werte, Inkonsistenzen oder irrelevante Informationen enthalten oder in Formaten vorliegen, die für die Verwendung durch Modelle ungeeignet sind (z. B. Text oder kategorische Daten). Das Feature-Engineering geht auf diese Probleme ein:
- Verbesserung der Modellleistung: Gut durchdachte Merkmale heben die für das Problem relevanten Muster hervor und erleichtern den Modellen das Lernen und die Verallgemeinerung.
- Verringerung der Komplexität: Sie kann die Modelle vereinfachen, indem sie informativere Eingaben liefert, was manchmal den Bedarf an hochkomplexen Architekturen oder Algorithmen zur Objekterkennung verringert.
- Umgang mit verschiedenen Datentypen: Es bietet Methoden zur Umwandlung verschiedener Datentypen (Text, Bilder, kategoriale Daten) in numerische Darstellungen, die von Algorithmen verstanden werden. Weitere Informationen finden Sie unter Datenvorverarbeitungstechniken.
- Verbesserung der Interpretierbarkeit: Aussagekräftige Merkmale können es manchmal leichter machen zu verstehen , warum ein Modell bestimmte Vorhersagen trifft, und tragen so zu erklärbarer KI (XAI) bei.
Gemeinsame Techniken der Merkmalstechnik
Mehrere Techniken fallen unter den Begriff des Feature Engineering:
- Imputation: Behandlung fehlender Daten durch Auffüllen von Lücken mit geschätzten Werten (z. B. Mittelwert, Median oder komplexere Methoden). Der Umgang mit fehlenden Daten ist ein üblicher erster Schritt.
- Skalierung und Normalisierung: Anpassung des Bereichs oder der Verteilung von numerischen Merkmalen (z. B. Min-Max-Skalierung, Z-Score-Normalisierung), um zu verhindern, dass Merkmale mit größeren Werten den Lernprozess dominieren.
- Kodierung kategorischer Variablen: Konvertierung nicht-numerischer Daten (wie die Kategorien "rot", "grün", "blau") in numerische Formate (z. B. One-Hot-Kodierung, Label-Kodierung). Siehe Kodierung kategorialer Daten.
- Erstellung von Merkmalen (Generierung): Ableitung neuer Merkmale aus vorhandenen Merkmalen auf der Grundlage von Domänenwissen oder Interaktionsanalysen (z. B. Erstellung von "Alter" aus "Geburtsdatum", Kombination von "Größe" und "Gewicht" zu "BMI" oder Extraktion von Textmerkmalen mithilfe von TF-IDF).
- Binning (Diskretisierung): Gruppierung kontinuierlicher numerischer Daten in diskrete Bins oder Intervalle.
- Logarithmische Transformation: Anwendung einer logarithmischen Transformation zur Behandlung schiefer Datenverteilungen. Weitere Einzelheiten finden Sie unter Datentransformationen.
- Auswahl der Merkmale: Identifizierung und Beibehaltung nur der relevantesten Merkmale, wobei redundante oder irrelevante Merkmale verworfen werden, um das Modell zu vereinfachen und möglicherweise die Leistung zu verbessern. Dies ist eng mit der Dimensionalitätsreduktion verbunden.
Anwendungen in der realen Welt
- Vorausschauende Wartung: In der Fertigung können die Sensor-Rohdaten (Vibration, Temperatur, Druck) von Maschinen verrauscht und hochdimensional sein. Das Feature-Engineering könnte die Berechnung von gleitenden Mittelwerten, Standardabweichungen über Zeitfenster, Frequenzbereichsmerkmalen (wie FFT) oder die Erstellung von Merkmalen umfassen, die plötzliche Spitzen oder Veränderungen anzeigen. Diese konstruierten Merkmale erleichtern einem ML-Modell die Vorhersage potenzieller Maschinenausfälle, bevor sie auftreten, wie in KI in der Fertigung erörtert.
- Vorhersage der Kundenabwanderung: Zur Vorhersage, welche Kunden einen Dienst nicht mehr nutzen, werden Rohdaten wie Nutzungsprotokolle, demografische Daten, Support-Ticket-Verlauf und Kaufdatensätze verwendet. Die Entwicklung von Merkmalen könnte die Erstellung von Merkmalen wie "durchschnittliche Sitzungsdauer", "Zeit seit dem letzten Kauf", "Anzahl der Support-Tickets im letzten Monat", "Verhältnis von positivem zu negativem Feedback" oder "Customer Lifetime Value" umfassen. Diese abgeleiteten Merkmale liefern aussagekräftigere Signale für die Vorhersage der Kundenabwanderung als die Rohprotokolle allein. Dies ist relevant für KI im Finanzwesen und im Einzelhandel.
Feature Engineering und Ultralytik
Auch wenn fortgeschrittene Modelle wie Ultralytics YOLO Aufgaben wie Objekterkennung und Bildsegmentierung durch automatisches Erlernen relevanter visueller Merkmale mit Hilfe ihrer tiefen neuronalen Netzwerkarchitekturen(Backbone, Neck, Head) meistern, bleiben die Grundsätze der Merkmalstechnik relevant. So ist beispielsweise die Vorverarbeitung von Eingabebildern (z. B. Histogrammausgleich bei unterschiedlichen Lichtverhältnissen, Rauschunterdrückung mit Bibliotheken wie OpenCV oder Anwendung spezifischer, auf den Problembereich zugeschnittener Datenerweiterungen ) vor der Eingabe in ein YOLO-Modell eine Form der Merkmalstechnik, die die Robustheit und Leistung des Modells verbessern kann. Darüber hinaus können die Ergebnisse von YOLO (z. B. Bounding-Box-Koordinaten, Objektklassen, Zählungen) in Features für nachgelagerte Aufgaben umgewandelt oder mit anderen Datenquellen für komplexere Analysen kombiniert werden, die möglicherweise über Plattformen wie Ultralytics HUB verwaltet werden, die bei der Organisation von Datensätzen und Modellen helfen. In der Ultralytics-Dokumentation und den Anleitungen finden Sie weitere Informationen über die Verwendung von Modellen, benutzerdefiniertes Training und die Vorverarbeitung von kommentierten Daten. Tools wie Featuretools können auch bei der Automatisierung von Teilen des Feature-Engineering-Prozesses behilflich sein und stimmen mit Konzepten des automatisierten maschinellen Lernens (AutoML) überein. Effektives Feature-Engineering bleibt auch neben leistungsstarken Deep Learning-Modellen ein wichtiger Aspekt erfolgreicher MLOps-Praktiken.