Datenvorverarbeitung
Meistern Sie die Datenvorverarbeitung für maschinelles Lernen. Lernen Sie Techniken wie Bereinigung, Skalierung und Kodierung, um die Modellgenauigkeit und -leistung zu steigern.
Die Datenvorverarbeitung ist die entscheidende Anfangsphase in der Pipeline des maschinellen Lernens, in der die Rohdaten in ein
sauberes, verständliches Format für Algorithmen umgewandelt werden. Daten aus der realen Welt sind oft unvollständig, inkonsistent und voller
Fehlern oder Ausreißern. Wenn ein Modell auf solch fehlerhaften Eingaben trainiert wird, wird die resultierende
Vorhersagemodellierung wahrscheinlich
ungenaue Ergebnisse, ein Phänomen, das oft als "Garbage in, garbage out" bezeichnet wird. Durch systematische
diese Probleme systematisch angehen, stellt die Vorverarbeitung sicher, dass
dass die Trainingsdaten von hoher Qualität sind, was für
um eine optimale Modellgenauigkeit und -stabilität zu erreichen.
Kerntechniken der Vorverarbeitung
Die spezifischen Schritte der Vorverarbeitung variieren je nach Datentyp - ob Text, Bilder oder tabellarische Daten - aber
umfassen im Allgemeinen mehrere grundlegende Aufgaben.
-
Datenbereinigung: Dies beinhaltet
fehlende Werte zu behandeln, verrauschte Daten zu korrigieren und Unstimmigkeiten zu beseitigen. Zu den Techniken gehören das Imputieren
fehlender Einträge mit statistischen Mitteln oder die vollständige Entfernung beschädigter Datensätze mit Tools wie
Pandas.
-
Normalisierung und Skalierung:
Algorithmen schneiden oft schlecht ab, wenn die Merkmale sehr unterschiedliche Skalen haben (z. B. Alter vs. Einkommen). Normalisierung
passt numerische Spalten an eine gemeinsame Skala an, z. B. von 0 bis 1, und verhindert, dass größere Werte den
Gradientenabstiegsprozess dominieren. Sie können mehr lesen
über Skalierungsstrategien in der
Scikit-learn-Dokumentation.
-
Kodierung: Modelle für maschinelles Lernen erfordern in der Regel numerische Eingaben. Kategorische Daten (wie
"Rot", "Grün", "Blau") müssen in Zahlen umgewandelt werden mit Methoden wie
One-Hot-Codierung oder Label
Kodierung.
-
Dimensionalitätsreduktion: Techniken wie
Hauptkomponentenanalyse (PCA)
reduzieren die Anzahl der Eingabevariablen und halten nur die wichtigsten Informationen zurück, um eine
Überanpassung zu verhindern und das Training zu beschleunigen.
-
Bildgrößenanpassung: In der
Computer Vision (CV) müssen Bilder oft auf eine
auf eine feste Größe (z.B. 640x640 Pixel) verkleinert werden, damit sie in die Eingabeschicht eines
Faltungsneuronalen Netzes (CNN) anzupassen.
Anwendungsfälle in der Praxis
Die Datenvorverarbeitung ist in allen Branchen allgegenwärtig und bildet das Rückgrat für zuverlässige KI-Systeme.
-
Medizinische Bildanalyse:
Bei der Erkennung von Anomalien in MRT- oder CT-Scans ist die Vorverarbeitung entscheidend. Rohscans variieren in Kontrast und Auflösung
je nach dem verwendeten Gerät. Bei der Vorverarbeitung wird die Pixelintensität normalisiert und die Größe der Bilder angepasst, um sicherzustellen, dass der
KI-Agent sich auf pathologische Merkmale und nicht auf
technische Artefakte. Sehen Sie zum Beispiel, wie Forscher
YOLO11 für die Tumorerkennung einsetzen
um die diagnostische Präzision zu verbessern.
-
Erkennung von Finanzbetrug: Im Bankensektor sind die Transaktionsprotokolle oft unübersichtlich und unausgewogen.
Die Vorverarbeitung umfasst die Bereinigung von Zeitstempelfehlern und die Normalisierung der Transaktionsbeträge. Entscheidend ist auch, dass sie
Ausgleich des Datensatzes - da Betrug selten ist - durch Stichprobenverfahren, um sicherzustellen, dass das
Anomalie-Erkennungsmodell verdächtige Aktivitäten
verdächtige Aktivitäten identifiziert. IBM bietet Einblicke, wie die Datenaufbereitung
diese geschäftskritischen Analysen unterstützt.
Vorverarbeitung mit Ultralytics YOLO
Moderne Frameworks automatisieren oft wesentliche Teile der Vorverarbeitungspipeline. Bei der Verwendung von
YOLO11werden Aufgaben wie die Größenänderung von Bildern, die Skalierung von Pixelwerten und die Formatierung von Beschriftungen
intern während des Trainingsprozesses erledigt. Dies ermöglicht es den Entwicklern, sich auf übergeordnete Aufgaben wie
Modellauswertung und Einsatz.
Das folgende Beispiel zeigt, wie YOLO11 die Größenänderung von Bildern automatisch über die imgsz Argument
während der Ausbildung:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)
Differenzierung verwandter Konzepte
Es ist hilfreich, die Datenvorverarbeitung von ähnlichen Begriffen im Arbeitsablauf des maschinellen Lernens zu unterscheiden:
-
vs. Datenerweiterung: Während
Vorverarbeitung die Daten so formatiert, dass sie nutzbar sind (z. B. Größenänderung), beinhaltet die Erweiterung die Erstellung
neue synthetische Variationen vorhandener Daten (z. B. Drehen, Spiegeln), um die Vielfalt und Robustheit des Datensatzes
Robustheit zu erhöhen. Weitere Informationen finden Sie in unserem
Leitfaden zur Datenerweiterung.
-
vs. Feature Engineering:
Die Vorverarbeitung konzentriert sich auf die Reinigung und Formatierung der Rohdaten. Feature Engineering ist ein kreativerer Schritt, der Folgendes beinhaltet
Ableitung neuer, aussagekräftiger Variablen aus diesen Daten (z. B. Berechnung von "Preis pro Quadratmeter" aus
"Preis" und "Fläche"), um die
Modellleistung zu verbessern.
-
vs. Datenbeschriftung: Die Beschriftung ist der
manuelle oder automatisierte Prozess der Beschriftung von Daten (z. B. Zeichnen von
Bounding Boxes), um eine grundlegende Wahrheit zu schaffen.
Bei der Vorverarbeitung werden diese beschrifteten Bilder und Anmerkungen für das
neuronales Netzwerk vor.
Durch die Beherrschung der Datenvorverarbeitung legen Ingenieure den Grundstein für erfolgreiche
KI-Projekte und stellen sicher, dass anspruchsvolle
Modelle wie YOLO11 und das kommende YOLO26 ihr volles Potenzial entfalten können. Für
Verwaltung von Datensätzen und die Automatisierung dieser Arbeitsabläufe bietet die
Ultralytics eine einheitliche Umgebung, die den Weg von den
den Weg von den Rohdaten zum bereitgestellten Modell.