Data-Centric AI
Entdecken Sie Data-Centric AI, den Ansatz zur Verbesserung der Datensatzqualität, um die Modellleistung zu steigern. Erfahren Sie, warum bessere Daten und nicht nur ein besseres Modell der Schlüssel zu robuster KI sind.
Datenzentrierte KI ist eine Philosophie und Methodik in der Entwicklung des maschinellen Lernens (ML), die den Schwerpunkt auf die Verbesserung der
Qualität der Trainingsdaten legt, anstatt sich ausschließlich auf die Optimierung der Modellarchitektur zu konzentrieren. Bei traditionellen modellzentrierten
Ansätzen wird der Datensatz oft als statische Eingabe behandelt, während Ingenieure wochenlang damit beschäftigt sind, Hyperparameter abzustimmen oder
komplexe neuronale Netzwerkstrukturen zu entwerfen.
Umgekehrt behandelt ein datenzentrierter Ansatz den Modellcode als feste Grundlage und lenkt die Entwicklungsbemühungen in Richtung
systematischer Datenbereinigung, Konsistenz der Beschriftung und
Erweiterung, um die Gesamtleistung des Systems zu steigern. Diese Verlagerung berücksichtigt, dass für viele praktische Anwendungen das
Prinzip „Garbage in, garbage out“ (Müll rein, Müll raus) das Haupthindernis für die Erzielung einer hohen Genauigkeit darstellt.
Die Kernphilosophie: Qualität vor Quantität
Die grundlegende Prämisse der datenzentrierten KI lautet, dass ein kleinerer, qualitativ hochwertiger Datensatz oft bessere Ergebnisse liefert als ein
riesiger, verrauschter. Führende Persönlichkeiten auf diesem Gebiet, wie Andrew Ng,
haben sich für diesen Wandel eingesetzt und argumentieren, dass die KI-Community in der Vergangenheit zu viel Wert auf algorithmische Innovationen gelegt hat. Um
robuste Systeme zu entwickeln, müssen Ingenieure
aktive Lernprozesse durchlaufen, in denen sie iterativ
Fehlermodi identifizieren und diese durch Verfeinerung des Datensatzes korrigieren. Dazu gehören die präzise
Datenkennzeichnung, das Entfernen von Duplikaten und die Behandlung von Randfällen
, die für das Modell schwer zu classify sind.
Zu den wichtigsten Aktivitäten in diesem Arbeitsablauf gehören:
-
Systematische Fehleranalyse: Anstatt sich nur auf aggregierte Kennzahlen wie die
Genauigkeit zu verlassen, analysieren Entwickler spezifische Fälle, in denen
das Modell versagt – beispielsweise bei der Erkennung kleiner Objekte in
Luftbildern– und sammeln gezielte Daten, um
diese Schwächen zu beheben.
-
Konsistenz der Beschriftung: Es ist entscheidend, dass alle Annotatoren die gleichen Richtlinien befolgen. Tools wie
Label Studio helfen Teams dabei, die Qualität der Annotationen zu verwalten, um widersprüchliche Signale zu vermeiden
, die den Trainingsprozess verwirren könnten.
-
Datenanreicherung: Entwickler verwenden
Datenanreicherungstechniken, um
die Vielfalt des Datensatzes künstlich zu erweitern. Durch die Anwendung von Transformationen wie Drehung, Skalierung und Farbanpassung
lernt das Modell, besser auf unbekannte Umgebungen zu generalisieren.
-
Generierung synthetischer Daten: Wenn reale Daten rar sind, können Teams
synthetische Daten mithilfe von Simulations-Engines wie
NVIDIA generieren, um Lücken im Datensatz zu füllen und sicherzustellen, dass
seltene Klassen angemessen vertreten sind.
Anwendungsfälle in der Praxis
Ein datenzentrierter Ansatz ist in Branchen, in denen die
Präzision der Computervision unverzichtbar ist, von entscheidender Bedeutung.
-
Präzisionslandwirtschaft: Bei der
KI in der Landwirtschaft hängt die Unterscheidung zwischen einer
gesunden Pflanze und einer Pflanze im Frühstadium einer Krankheit oft von subtilen visuellen Hinweisen ab. Ein datenzentriertes Team würde sich auf die
Zusammenstellung eines
hochwertigen Datensatzes für die Computervisionkonzentrieren
, der speziell Beispiele für Krankheiten unter verschiedenen Lichtbedingungen und in verschiedenen Wachstumsstadien enthält. Dadurch wird sichergestellt, dass
das Modell nicht lernt, irrelevante Hintergrundmerkmale mit der Krankheitsklasse in Verbindung zu bringen, ein häufiges Problem, das als
Shortcut-Lernen bekannt ist.
-
Industrieinspektion: Bei der
KI in der Fertigung können Fehler
nur einmal in zehntausend Einheiten auftreten. Ein Standardmodell-Trainingslauf könnte diese seltenen Ereignisse aufgrund einer Klassenungleichheit ignorieren
. Durch den Einsatz von
Anomalieerkennungsstrategien und die manuelle
Beschaffung oder Synthese weiterer Bilder dieser spezifischen Fehler stellen Ingenieure sicher, dass das System die hohen
Rückrufquoten erreicht, die für Qualitätskontrollstandards
von Organisationen wie ISO definiert sind.
Implementierung datenzentrierter Techniken mit Ultralytics
Sie können datenzentrierte Techniken wie Augmentation direkt in Ihrer Trainingspipeline anwenden. Der folgende Python
-Code
zeigt, wie Sie ein YOLO26-Modell laden und es
mit aggressiven Augmentationsparametern trainieren können, um die Robustheit gegenüber Variationen zu verbessern.
from ultralytics import YOLO
# Load a YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")
# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
data="coco8.yaml",
epochs=10,
degrees=15.0, # Random rotation up to +/- 15 degrees
mixup=0.1, # Apply MixUp augmentation with 10% probability
copy_paste=0.1, # Use Copy-Paste augmentation
)
Unterscheidung von verwandten Konzepten
Um datenzentrierte KI zu verstehen, muss man sie von ähnlichen Begriffen im Bereich des maschinellen Lernens unterscheiden.
-
Modell-zentrierte KI: Dies ist der umgekehrte Ansatz, bei dem der Datensatz konstant gehalten wird und
Verbesserungen gesucht werden durch
Hyperparameterabstimmung oder Architektur
Änderungen. Dieser Ansatz ist zwar notwendig, um die Grenzen des Stands der Technik in Forschungsarbeiten auf
IEEE Xplore zu finden sind, führt dies in der Produktion oft zu
Produktion im Vergleich zur Bereinigung der Daten.
-
Big Data: Big Data bezieht sich in erster Linie auf
das Volumen, die Geschwindigkeit und die Vielfalt von Informationen. Datenzentrierte KI erfordert nicht unbedingt „große“ Datenmengen,
sondern vielmehr „intelligente“ Daten. Ein kleiner, perfekt gekennzeichneter Datensatz ist oft leistungsfähiger als ein riesiger, verrauschter
Datensatz, wie die Data-Centric AI Community betont.
-
Explorative Datenanalyse (EDA):
Datenvisualisierung und EDA sind Schritte
innerhalb des datenzentrierten Arbeitsablaufs. EDA hilft dabei, Inkonsistenzen mithilfe von Tools wie
Pandas, aber datenzentrierte KI umfasst den gesamten technischen Lebenszyklus der
Behebung dieser Probleme, um die
Inferenz-Engine zu verbessern.
-
MLOps:
Machine Learning Operations (MLOps)
bietet die Infrastruktur und Pipelines zur Verwaltung des Lebenszyklus der KI-Produktion. Datenzentrierte KI ist die
Methodik, die innerhalb von MLOps-Pipelines angewendet wird, um sicherzustellen, dass die durch sie fließenden Daten zuverlässige Modelle erstellen.
Plattformen wie Weights & Biases werden
häufig verwendet, um track sich Datenänderungen auf die Modellmetriken auswirken.