Glossar

Technische Merkmale

Steigern Sie die Genauigkeit des maschinellen Lernens mit fachkundigem Feature Engineering. Lernen Sie Techniken zur Erstellung, Umwandlung und Auswahl aussagekräftiger Merkmale.

Beim Feature-Engineering werden mithilfe von Fachwissen Rohdaten ausgewählt, erstellt und in Merkmale umgewandelt, die das zugrunde liegende Problem für die Vorhersagemodelle besser darstellen. Dies ist ein kritischer und oft zeitaufwändiger Schritt in der Pipeline des maschinellen Lernens (ML), da die Qualität der Merkmale direkte Auswirkungen auf die Leistung und Genauigkeit des resultierenden Modells hat. Effektives Feature-Engineering kann den Unterschied zwischen einem mittelmäßigen und einem hochpräzisen Modell ausmachen und führt oft zu deutlicheren Leistungssteigerungen als die Wahl eines anderen Algorithmus oder eine umfangreiche Abstimmung der Hyperparameter.

## Der Feature-Engineering-Prozess

Feature Engineering ist sowohl eine Kunst als auch eine Wissenschaft, die Fachwissen mit mathematischen Techniken verbindet. Der Prozess kann in mehrere gemeinsame Aktivitäten unterteilt werden, die oft mit Bibliotheken wie dem scikit-learn-Vorverarbeitungsmodul oder spezialisierten Tools für automatisiertes Feature Engineering durchgeführt werden.

  • Erstellung von Merkmalen: Hier geht es um die Erstellung neuer Merkmale aus vorhandenen Merkmalen. In einem Einzelhandelsdatensatz könnten Sie zum Beispiel ein "Kaufdatum" von einem "Kunde seit"-Datum subtrahieren, um ein Merkmal "Dauer der Kundentreue" zu erstellen. Bei der Zeitreihenanalyse könnten Sie aus einem Zeitstempel Merkmale wie gleitende Durchschnitte oder Saisonalität ableiten.
  • Transformationen: Rohdaten müssen oft transformiert werden, damit sie den Annahmen eines Algorithmus für maschinelles Lernen entsprechen. Dazu gehören die Skalierung numerischer Merkmale, die Anwendung logarithmischer Transformationen, um schiefe Daten zu verarbeiten, oder die Verwendung von Techniken wie Binning, um Zahlen in Kategorien zu gruppieren.
  • Kodierung: Viele ML-Modelle können kategoriale Daten nicht direkt verarbeiten. Bei der Kodierung werden textbasierte Kategorien in numerische Darstellungen umgewandelt. Zu den gängigen Methoden gehören die One-Hot-Codierung, bei der jeder Kategoriewert in eine neue binäre Spalte umgewandelt wird, und die Label-Codierung.
  • Auswahl der Merkmale: Nicht alle Merkmale sind nützlich. Einige können redundant oder irrelevant sein und Rauschen verursachen, das zu einer Überanpassung führen kann. Die Merkmalsauswahl zielt darauf ab, eine Teilmenge der relevantesten Merkmale auszuwählen, um die Modellleistung zu verbessern und die Rechenkosten zu senken.

## Real-World Applications

Der Einfluss von Feature Engineering ist in vielen Branchen offensichtlich. Ihre Effektivität hängt oft von tiefem Fachwissen ab, um Merkmale zu erstellen, die wirklich prädiktive Signale erfassen.

  1. Kreditwürdigkeitsprüfung: Im Finanzwesen können die Rohdaten der Kunden Einkommen, Alter und Kreditvergangenheit umfassen. Ein Feature-Engineer könnte neue Variablen wie "Schulden-Einkommens-Verhältnis" (Division der Gesamtschulden durch das Bruttoeinkommen) oder "Kreditauslastung" (Division des Kreditsaldos durch das Kreditlimit) erstellen. Diese technischen Merkmale liefern ein viel deutlicheres Signal für die finanzielle Gesundheit einer Person als die reinen Zahlen, was zu genaueren Kreditrisikomodellen führt.
  2. Vorausschauende Wartung: In der Fertigung erzeugen Sensoren an Maschinen riesige Ströme von Rohdaten wie Vibrationen, Temperatur und Drehzahlen. Zur Vorhersage von Ausfällen kann ein Ingenieur Merkmale wie den "gleitenden Durchschnitt der Temperatur in den letzten 24 Stunden" oder die "Standardabweichung der Schwingungen" erstellen. Diese Merkmale können subtile Verschlechterungsmuster aufdecken, die einem mechanischen Ausfall vorausgehen, was eine proaktive Wartung ermöglicht und kostspielige Ausfallzeiten verhindert.

## Feature Engineering vs. Verwandte Konzepte

Es ist wichtig, Feature Engineering von verwandten Begriffen aus der KI und den Datenwissenschaften zu unterscheiden.

  • Merkmalstechnik vs. Merkmalsextraktion: Bei der Merkmalstechnik handelt es sich um einen weitgehend manuellen Prozess der Erstellung neuer Merkmale auf der Grundlage von Intuition und Fachwissen. Die Merkmalsextraktion ist in der Regel ein automatisierter Prozess der Umwandlung von Daten in einen reduzierten Satz von Merkmalen. Beim Deep Learning führen Modelle wie Convolutional Neural Networks (CNNs) die Merkmalsextraktion automatisch durch und lernen hierarchische Merkmale (Kanten, Texturen, Formen) aus rohen Pixeldaten ohne menschliches Eingreifen.
  • Merkmalstechnik vs. Einbettungen: Einbettungen sind eine hochentwickelte, erlernte Form der Merkmalsdarstellung, die in NLP und Computer Vision üblich ist. Anstatt Merkmale manuell zu erstellen, lernt ein Modell einen dichten Vektor, der die semantische Bedeutung eines Elements (z. B. eines Wortes oder eines Bildes) erfasst. Daher sind Einbettungen das Ergebnis eines automatisierten Merkmalslernens und nicht einer manuellen Entwicklung.
  • Merkmalstechnik vs. Datenvorverarbeitung: Die Datenvorverarbeitung ist eine umfassendere Kategorie, die als einen ihrer wichtigsten Schritte das Feature Engineering beinhaltet. Sie umfasst auch andere wichtige Aufgaben wie die Datenbereinigung (Behandlung fehlender Werte und Ausreißer) und die Vorbereitung von Datensätzen für das Training.

Auch wenn moderne Architekturen wie die in den YOLO-Modellen von Ultralytics die Merkmalsextraktion für bildbasierte Aufgaben wie Objekterkennung und Instanzsegmentierung automatisieren, bleiben die Grundsätze der Merkmalstechnik grundlegend. Zu verstehen, wie man Daten effektiv darstellt, ist entscheidend für das Debuggen von Modellen, die Verbesserung der Datenqualität und die Bewältigung komplexer Probleme, bei denen visuelle Daten mit strukturierten Daten kombiniert werden. Plattformen wie Ultralytics HUB bieten Werkzeuge zur Verwaltung dieses gesamten Lebenszyklus, von der Datensatzvorbereitung bis zur Modellbereitstellung.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert