Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Feature Engineering

Steigern Sie die Genauigkeit von Machine-Learning-Modellen mit professionellem Feature Engineering. Lernen Sie Techniken zum Erstellen, Transformieren und Auswählen von effektiven Features.

Feature Engineering ist die Kunst und Wissenschaft der Nutzung von Fachwissen, um Rohdaten in informative Attribute umzuwandeln Attribute umzuwandeln, die das zugrunde liegende Problem für Vorhersagemodelle besser darstellen. Im breiteren Rahmen des maschinellen Lernens (ML) sind Rohdaten selten bereit Rohdaten selten zur sofortigen Verarbeitung bereit; sie enthalten oft Rauschen, fehlende Werte oder Formate, die Algorithmen nicht direkt interpretieren nicht direkt interpretieren können. Durch die Erstellung neuer Merkmale oder die Modifizierung vorhandener Merkmale können Ingenieure die Modellgenauigkeit und -leistung erheblich verbessern, was oft bessere Ergebnisse erzielen, als wenn man einfach zu einem komplexeren Algorithmus übergeht. Dieser Prozess überbrückt die Lücke zwischen den gesammelten Rohdaten Informationen und der mathematischen Darstellung, die für die prädiktive Modellierung.

Kerntechniken im Feature Engineering

Der Prozess umfasst in der Regel mehrere iterative Schritte, die darauf abzielen, die wichtigsten Signale in den Daten aufzudecken. Während Tools wie die Pandas in Python diese Manipulationen erleichtern, hängt die Strategie hängt stark vom Verständnis des spezifischen Problembereichs ab.

  • Imputation und Bereinigung: Bevor neue Merkmale erstellt werden, müssen die Daten stabilisiert werden. Dies beinhaltet Behandlung fehlender Werte durch Datenbereinigungstechniken, wie das Auffüllen von Lücken mit mit dem Mittelwert, dem Median oder einem vorhergesagten Wert - ein Prozess, der als Imputation.
  • Transformation und Skalierung: Viele Algorithmen schneiden schlecht ab, wenn die Eingabevariablen sehr unterschiedliche Skalen haben. Techniken wie Normalisierung (Skalierung der Daten auf einen Bereich von 0 bis 1) oder Standardisierung (Zentrierung der Daten um den Mittelwert) stellen sicher, dass kein einzelnes Merkmal den Lernprozess dominiert allein aufgrund seiner Größe dominiert.
  • Kodierung kategorialer Daten: Modelle erfordern im Allgemeinen numerische Eingaben. Die Merkmalstechnik umfasst Konvertierung von Textbeschriftungen oder kategorischen Daten in Zahlen. Gängige Methoden sind die Beschriftungscodierung und One-Hot-Codierung, bei der binäre Spalten für jede Kategorie erstellt werden.
  • Konstruktion von Merkmalen: Dies ist der kreative Aspekt, bei dem neue Variablen abgeleitet werden. Zum Beispiel könnte in einem Immobiliendatensatz, anstatt "Länge" und "Breite" getrennt zu verwenden, könnte ein Ingenieur sie multiplizieren, um ein Merkmal "Quadratmeterzahl" zu erstellen, das stärker mit dem Preis korreliert.
  • Auswahl der Merkmale: Das Hinzufügen zu vieler Merkmale kann zu Überanpassung führen, bei der sich das Modell Rauschen einprägt. Techniken wie rekursive Merkmalseliminierung oder Dimensionalitätsreduktion helfen bei der Identifizierung nur die wichtigsten Attribute zu identifizieren und beizubehalten.

Merkmalstechnik in der Computer Vision

Auf dem Gebiet der Computer Vision (CV) erfolgt das Feature häufig die Form der Datenerweiterung Datenerweiterung. Während moderne Deep Learning Modelle automatisch Hierarchien und Muster erlernen, können wir die Trainingsdaten durch Simulation verschiedener verschiedene Umgebungsbedingungen simulieren. Ändern von Hyperparameter-Abstimmungskonfigurationen, um geometrische geometrische Transformationen einbeziehen, kann das Modell Merkmale lernen, die nicht von der Ausrichtung oder Perspektive abhängen.

Das folgende Codeschnipsel demonstriert die Anwendung des Augmentations-basierten Feature-Engineering während des Trainings einer YOLO11 Modell. Durch die Anpassung von Argumenten wie degrees und shearsynthetisieren wir neue Merkmalsvariationen aus dem Originaldatensatz.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train with augmentation hyperparameters acting as on-the-fly feature engineering
# 'degrees' rotates images +/- 10 deg, 'shear' changes perspective
model.train(data="coco8.yaml", epochs=3, degrees=10.0, shear=2.5)

Anwendungsfälle in der Praxis

Der Wert des Feature Engineering lässt sich am besten durch seine praktische Anwendung in verschiedenen Branchen verstehen.

  1. Bewertung finanzieller Risiken: Im Finanzsektor reichen die reinen Transaktionsprotokolle nicht aus, um Beurteilung der Kreditwürdigkeit. Experten nutzen KI im Finanzwesen um Kennziffern wie "Schulden im Verhältnis zum Einkommen" oder "Kreditauslastung" zu konstruieren. Diese konstruierten Merkmale liefern ein direktes Signal für die finanzielle Gesundheit und ermöglichen eine präzisere Kreditrisikomodellierung im Vergleich zur isolierten Verwendung Gehalts- oder Schuldenzahlen isoliert betrachtet.
  2. Vorausschauende Wartung in der Fertigung: Unter AI in der Fertigung sammeln Sensoren hochfrequente Daten über Vibrationen und Temperatur. Die direkte Eingabe von Sensor-Rohdaten in ein Modell ist oft verrauscht und ineffektiv. Stattdessen verwenden die Ingenieure Zeitreihenanalyse zur Erstellung von Merkmalen wie "gleitender Temperaturdurchschnitt der letzten Stunde" oder "Schwingungsstandardabweichung". Diese aggregierten Merkmale erfassen die Trends und Anomalien, die auf Maschinenverschleiß hindeuten, viel besser als momentane Werte.

Abgrenzung zu verwandten Begriffen

Es ist hilfreich, Feature-Engineering von ähnlichen Konzepten zu unterscheiden, um Verwirrung in Workflow-Diskussionen zu vermeiden.

  • Merkmalstechnik vs. Merkmalsextraktion: Obwohl die Begriffe oft synonym verwendet werden, gibt es eine Nuance. Feature Engineering impliziert einen manuellen, kreativen Prozess der Konstruktion neuer Inputs auf der Grundlage von Domänenwissen. Im Gegensatz dazu, bezieht sich die Merkmalsextraktion oft auf automatisierte Methoden oder mathematische Projektionen (wie PCA), die hochdimensionale Daten in eine dichte Darstellung destillieren. In Deep Learning (DL), Schichten in Faltungsneuronale Netze (CNNs) eine automatische Merkmalsextraktion, indem sie Filter für Kanten und Texturen lernen.
  • Feature Engineering vs. Einbettungen: In der modernen Verarbeitung natürlicher Sprache (NLP) wurde die manuelle Erstellung von Merkmalen (wie das Zählen der Worthäufigkeit) weitgehend durch Einbettungen. Einbettungen sind dichte Vektor Repräsentationen, die vom Modell selbst gelernt werden, um die semantische Bedeutung zu erfassen. Einbettungen sind zwar eine Form von Merkmalen, werden sie erlernt durch maschinelles Lernen (AutoML) Prozesse erlernt und nicht explizit von Hand "konstruiert".

Durch die Beherrschung des Feature Engineering können Entwickler Modelle erstellen, die nicht nur genauer, sondern auch effizienter sind, Sie benötigen weniger Rechenleistung, um eine hohe Leistung zu erzielen.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten