Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Datenvorverarbeitung

Meistern Sie die Datenvorverarbeitung für maschinelles Lernen. Lernen Sie Techniken wie Bereinigung, Skalierung und Kodierung, um die Modellgenauigkeit und -leistung zu steigern.

Die Datenvorverarbeitung ist die entscheidende Anfangsphase in der Pipeline des maschinellen Lernens, in der die Rohdaten in ein sauberes, verständliches Format für Algorithmen umgewandelt werden. Daten aus der realen Welt sind oft unvollständig, inkonsistent und voller Fehlern oder Ausreißern. Wenn ein Modell auf solch fehlerhaften Eingaben trainiert wird, wird die resultierende Vorhersagemodellierung wahrscheinlich ungenaue Ergebnisse, ein Phänomen, das oft als "Garbage in, garbage out" bezeichnet wird. Durch systematische diese Probleme systematisch angehen, stellt die Vorverarbeitung sicher, dass dass die Trainingsdaten von hoher Qualität sind, was für um eine optimale Modellgenauigkeit und -stabilität zu erreichen.

Kerntechniken der Vorverarbeitung

Die spezifischen Schritte der Vorverarbeitung variieren je nach Datentyp - ob Text, Bilder oder tabellarische Daten - aber umfassen im Allgemeinen mehrere grundlegende Aufgaben.

  • Datenbereinigung: Dies beinhaltet fehlende Werte zu behandeln, verrauschte Daten zu korrigieren und Unstimmigkeiten zu beseitigen. Zu den Techniken gehören das Imputieren fehlender Einträge mit statistischen Mitteln oder die vollständige Entfernung beschädigter Datensätze mit Tools wie Pandas.
  • Normalisierung und Skalierung: Algorithmen schneiden oft schlecht ab, wenn die Merkmale sehr unterschiedliche Skalen haben (z. B. Alter vs. Einkommen). Normalisierung passt numerische Spalten an eine gemeinsame Skala an, z. B. von 0 bis 1, und verhindert, dass größere Werte den Gradientenabstiegsprozess dominieren. Sie können mehr lesen über Skalierungsstrategien in der Scikit-learn-Dokumentation.
  • Kodierung: Modelle für maschinelles Lernen erfordern in der Regel numerische Eingaben. Kategorische Daten (wie "Rot", "Grün", "Blau") müssen in Zahlen umgewandelt werden mit Methoden wie One-Hot-Codierung oder Label Kodierung.
  • Dimensionalitätsreduktion: Techniken wie Hauptkomponentenanalyse (PCA) reduzieren die Anzahl der Eingabevariablen und halten nur die wichtigsten Informationen zurück, um eine Überanpassung zu verhindern und das Training zu beschleunigen.
  • Bildgrößenanpassung: In der Computer Vision (CV) müssen Bilder oft auf eine auf eine feste Größe (z.B. 640x640 Pixel) verkleinert werden, damit sie in die Eingabeschicht eines Faltungsneuronalen Netzes (CNN) anzupassen.

Anwendungsfälle in der Praxis

Die Datenvorverarbeitung ist in allen Branchen allgegenwärtig und bildet das Rückgrat für zuverlässige KI-Systeme.

  1. Medizinische Bildanalyse: Bei der Erkennung von Anomalien in MRT- oder CT-Scans ist die Vorverarbeitung entscheidend. Rohscans variieren in Kontrast und Auflösung je nach dem verwendeten Gerät. Bei der Vorverarbeitung wird die Pixelintensität normalisiert und die Größe der Bilder angepasst, um sicherzustellen, dass der KI-Agent sich auf pathologische Merkmale und nicht auf technische Artefakte. Sehen Sie zum Beispiel, wie Forscher YOLO11 für die Tumorerkennung einsetzen um die diagnostische Präzision zu verbessern.
  2. Erkennung von Finanzbetrug: Im Bankensektor sind die Transaktionsprotokolle oft unübersichtlich und unausgewogen. Die Vorverarbeitung umfasst die Bereinigung von Zeitstempelfehlern und die Normalisierung der Transaktionsbeträge. Entscheidend ist auch, dass sie Ausgleich des Datensatzes - da Betrug selten ist - durch Stichprobenverfahren, um sicherzustellen, dass das Anomalie-Erkennungsmodell verdächtige Aktivitäten verdächtige Aktivitäten identifiziert. IBM bietet Einblicke, wie die Datenaufbereitung diese geschäftskritischen Analysen unterstützt.

Vorverarbeitung mit Ultralytics YOLO

Moderne Frameworks automatisieren oft wesentliche Teile der Vorverarbeitungspipeline. Bei der Verwendung von YOLO11werden Aufgaben wie die Größenänderung von Bildern, die Skalierung von Pixelwerten und die Formatierung von Beschriftungen intern während des Trainingsprozesses erledigt. Dies ermöglicht es den Entwicklern, sich auf übergeordnete Aufgaben wie Modellauswertung und Einsatz.

Das folgende Beispiel zeigt, wie YOLO11 die Größenänderung von Bildern automatisch über die imgsz Argument während der Ausbildung:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)

Differenzierung verwandter Konzepte

Es ist hilfreich, die Datenvorverarbeitung von ähnlichen Begriffen im Arbeitsablauf des maschinellen Lernens zu unterscheiden:

  • vs. Datenerweiterung: Während Vorverarbeitung die Daten so formatiert, dass sie nutzbar sind (z. B. Größenänderung), beinhaltet die Erweiterung die Erstellung neue synthetische Variationen vorhandener Daten (z. B. Drehen, Spiegeln), um die Vielfalt und Robustheit des Datensatzes Robustheit zu erhöhen. Weitere Informationen finden Sie in unserem Leitfaden zur Datenerweiterung.
  • vs. Feature Engineering: Die Vorverarbeitung konzentriert sich auf die Reinigung und Formatierung der Rohdaten. Feature Engineering ist ein kreativerer Schritt, der Folgendes beinhaltet Ableitung neuer, aussagekräftiger Variablen aus diesen Daten (z. B. Berechnung von "Preis pro Quadratmeter" aus "Preis" und "Fläche"), um die Modellleistung zu verbessern.
  • vs. Datenbeschriftung: Die Beschriftung ist der manuelle oder automatisierte Prozess der Beschriftung von Daten (z. B. Zeichnen von Bounding Boxes), um eine grundlegende Wahrheit zu schaffen. Bei der Vorverarbeitung werden diese beschrifteten Bilder und Anmerkungen für das neuronales Netzwerk vor.

Durch die Beherrschung der Datenvorverarbeitung legen Ingenieure den Grundstein für erfolgreiche KI-Projekte und stellen sicher, dass anspruchsvolle Modelle wie YOLO11 und das kommende YOLO26 ihr volles Potenzial entfalten können. Für Verwaltung von Datensätzen und die Automatisierung dieser Arbeitsabläufe bietet die Ultralytics eine einheitliche Umgebung, die den Weg von den den Weg von den Rohdaten zum bereitgestellten Modell.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten