Schalten Sie ein zu YOLO Vision 2025!
25. September 2025
10:00 — 18:00 Uhr BST
Hybride Veranstaltung
Yolo Vision 2024
Glossar

Datenbereinigung

Meisterhafte Datenbereinigung für KI- und ML-Projekte. Lernen Sie Techniken zur Fehlerbehebung, zur Verbesserung der Datenqualität und zur effektiven Steigerung der Modellleistung!

Datenbereinigung ist der Prozess der Identifizierung und Korrektur oder Entfernung von fehlerhaften, ungenauen, unvollständigen oder inkonsistenten Daten aus einem Datensatz. Sie ist ein kritischer erster Schritt in jedem Machine Learning (ML)-Workflow, da die Qualität der Trainingsdaten die Leistung und Zuverlässigkeit des resultierenden Modells direkt bestimmt. Nach dem Prinzip "Garbage in, garbage out" stellt die Datenbereinigung sicher, dass Modelle wie Ultralytics YOLO mit genauen und konsistenten Informationen trainiert werden, was zu einer besseren Genauigkeit und zuverlässigeren Vorhersagen führt. Ohne eine ordnungsgemäße Bereinigung können zugrunde liegende Probleme in den Daten zu verzerrten Ergebnissen und einer schlechten Modellgeneralisierung führen.

Wichtige Aufgaben der Datenbereinigung

Der Prozess der Datenbereinigung umfasst mehrere unterschiedliche Aufgaben, die darauf abzielen, verschiedene Arten von Datenqualitätsproblemen zu beheben. Diese Aufgaben sind oft iterativ und erfordern möglicherweise domänenspezifisches Wissen.

  • Umgang mit fehlenden Werten: Datensätze enthalten oft fehlende Einträge, die behoben werden können, indem die unvollständigen Datensätze entfernt werden oder indem die fehlenden Werte mithilfe statistischer Methoden wie Mittelwert, Median oder fortgeschrittenerer Vorhersagemodelle imputiert (ausgefüllt) werden. Ein Leitfaden zum Umgang mit fehlenden Daten kann weitere Einblicke geben.
  • Korrektur ungenauer Daten: Dazu gehört die Behebung von Tippfehlern, Messungenauigkeiten (z. B. lbs vs. kg) und sachlich falschen Informationen. Datenvalidierungsregeln werden häufig angewendet, um diese Fehler zu kennzeichnen.
  • Entfernen von Duplikaten: Doppelte Datensätze können Verzerrungen in ein Modell einführen, indem sie bestimmten Datenpunkten ein unangemessenes Gewicht verleihen. Das Identifizieren und Entfernen dieser redundanten Einträge ist ein Standardschritt.
  • Verwaltung von Ausreißern: Ausreißer sind Datenpunkte, die erheblich von anderen Beobachtungen abweichen. Abhängig von ihrer Ursache können sie entfernt, korrigiert oder transformiert werden, um zu verhindern, dass sie den Modelltrainingsprozess negativ beeinflussen. Techniken zur Ausreißererkennung werden hierfür häufig eingesetzt.
  • Standardisierung von Daten: Dies beinhaltet die Sicherstellung, dass Daten einem einheitlichen Format entsprechen. Beispiele hierfür sind die Standardisierung von Datumsformaten, Textformatierung (z. B. die Umwandlung von Text in Kleinbuchstaben) und Einheitenumrechnungen. Einheitliche Datenqualitätsstandards sind entscheidend für den Erfolg.

Real-World AI/ML-Anwendungen

  1. Medizinische Bildanalyse: Beim Trainieren eines Objekterkennungsmodells auf einem Datensatz wie dem Brain Tumor Dataset ist die Datenbereinigung von entscheidender Bedeutung. Der Prozess umfasst das Entfernen beschädigter oder qualitativ minderwertiger Bilddateien, das Standardisieren aller Bilder auf eine einheitliche Auflösung und ein einheitliches Format sowie das Überprüfen, ob Patientenbeschriftungen und -anmerkungen korrekt sind. Dies stellt sicher, dass das Modell aus klaren, zuverlässigen Informationen lernt, was für die Entwicklung zuverlässiger Diagnosewerkzeuge in der KI im Gesundheitswesen unerlässlich ist. Das National Institute of Biomedical Imaging and Bioengineering (NIBIB) betont die Bedeutung qualitativ hochwertiger Daten in der medizinischen Forschung.
  2. KI für das Bestandsmanagement im Einzelhandel: Im KI-gestützten Einzelhandel überwachen Computer Vision-Modelle den Lagerbestand in den Regalen mithilfe von Kameraaufnahmen. Datenbereinigung ist notwendig, um unscharfe Bilder herauszufiltern, Frames zu entfernen, in denen Produkte von Käufern verdeckt werden, und Produktzählungen aus mehreren Kamerawinkeln zu deduplizieren. Die Behebung dieser Probleme stellt sicher, dass das Bestandssystem einen genauen Überblick über die Lagerbestände hat, was eine intelligentere Wiederauffüllung ermöglicht und Verschwendung reduziert. Unternehmen wie Google Cloud bieten Analyselösungen an, bei denen die Datenqualität von grösster Bedeutung ist.

Datenbereinigung vs. verwandte Konzepte

Es ist wichtig, die Datenbereinigung von den damit verbundenen Schritten der Datenaufbereitung zu unterscheiden:

  • Data Preprocessing: Dies ist ein breiterer Begriff, der Data Cleaning umfasst, aber auch andere Transformationen, um Daten für ML-Modelle vorzubereiten, wie z. B. Normalisierung (Skalierung numerischer Merkmale), Codierung kategorialer Variablen und Feature Extraction. Während sich die Bereinigung auf die Behebung von Fehlern konzentriert, konzentriert sich die Vorverarbeitung auf die Formatierung von Daten für Algorithmen. Weitere Informationen finden Sie im Ultralytics-Leitfaden zur Vorverarbeitung annotierter Daten.
  • Data Labeling: Dies ist der Prozess des Hinzufügens informativer Tags oder Annotationen (Labels) zu Rohdaten, wie z. B. das Zeichnen von Begrenzungsrahmen um Objekte in Bildern für überwachtes Lernen. Data Cleaning kann das Korrigieren falscher Labels umfassen, die bei Qualitätsprüfungen identifiziert wurden, unterscheidet sich jedoch vom anfänglichen Akt des Labelns. Der Leitfaden zur Datenerfassung und -annotation bietet Einblicke in die Kennzeichnung.
  • Data Augmentation: Diese Technik vergrößert und diversifiziert den Trainingsdatensatz künstlich, indem modifizierte Kopien vorhandener Daten erstellt werden (z. B. Drehen von Bildern, Ändern der Helligkeit). Data Augmentation zielt darauf ab, die Modellgeneralisierung und -robustheit zu verbessern, während sich die Datenbereinigung auf die Verbesserung der Qualität der ursprünglichen Daten konzentriert. Erfahren Sie mehr im The Ultimate Guide to Data Augmentation.

Datenbereinigung ist eine grundlegende, oft iterative Vorgehensweise, die die Zuverlässigkeit und Leistung von KI-Systemen erheblich verbessert, indem sichergestellt wird, dass die zugrunde liegenden Daten einwandfrei sind. Tools wie die Pandas-Bibliothek werden häufig für Datenmanipulations- und Bereinigungsaufgaben in Python-basierten ML-Workflows verwendet. Die Sicherstellung der Datenqualität durch sorgfältige Bereinigung ist entscheidend für die Entwicklung vertrauenswürdiger KI, insbesondere bei komplexen Computer Vision (CV)-Aufgaben oder umfangreichen Benchmark-Datensätzen wie COCO oder ImageNet. Plattformen wie Ultralytics HUB können helfen, qualitativ hochwertige Datensätze während des gesamten Projektlebenszyklus zu verwalten und zu pflegen.

Werden Sie Mitglied der Ultralytics-Gemeinschaft

Beteiligen Sie sich an der Zukunft der KI. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten
Link in die Zwischenablage kopiert