Data-Centric AI
Entdecken Sie Data-Centric AI, den Ansatz zur Verbesserung der Datensatzqualität, um die Modellleistung zu steigern. Erfahren Sie, warum bessere Daten und nicht nur ein besseres Modell der Schlüssel zu robuster KI sind.
Datenzentrierte KI ist ein strategischer Ansatz zur Entwicklung
Künstliche Intelligenz (KI) Systeme
der sich in erster Linie auf die Verbesserung der Qualität der Trainingsdaten konzentriert und nicht auf die Iteration der Modellarchitektur.
In traditionellen Arbeitsabläufen betrachten Entwickler den Datensatz oft als festen Input und verwenden viel Mühe auf die Optimierung von
Hyperparametern oder dem Entwurf komplexer
Strukturen neuronaler Netze (NN). Im Gegensatz dazu behandelt eine
datenzentrierte Methodik hingegen behandelt den Modellcode - wie etwa die Architektur von
Ultralytics YOLO11-als eine relativ statische Basislinie,
richtet die technischen Bemühungen auf die systematische Datenbereinigung, die Konsistenz der Beschriftung und die Erweiterung zur Steigerung der
Leistung.
Die Kernphilosophie: Qualität vor Quantität
Die Effektivität eines jeden
maschinellen Lernsystems (ML) ist grundsätzlich
durch das Prinzip "Garbage in, garbage out" begrenzt. Selbst die fortschrittlichsten Algorithmen können keine
effektive Muster aus verrauschten oder falsch beschrifteten Eingaben lernen. Die datenzentrierte KI geht davon aus, dass für viele praktische
Anwendungen die Trainingsdaten die wichtigste
die wichtigste Variable für den Erfolg sind. Bei diesem Ansatz wird betont, dass ein kleinerer, hochwertiger Datensatz oft bessere Ergebnisse liefert
bessere Ergebnisse liefert als ein großer, verrauschter Datensatz.
Befürworter dieser Philosophie, wie z. B. Andrew Ng, argumentieren, dass der
dass der Schwerpunkt der KI-Gemeinschaft unverhältnismäßig stark auf modellzentrierte Innovationen ausgerichtet ist. Um robuste Systeme zu bauen,
müssen Ingenieure in aktive Lernprozesse eingebunden werden
in denen sie iterativ Fehlermodi identifizieren und diese durch Verfeinerung des Datensatzes korrigieren. Dies beinhaltet präzise
Datenbeschriftung, das Entfernen von Duplikaten und die Behandlung
Fällen, die das Modell nur schwer classify kann.
Schlüsseltechniken und Umsetzung
Die Umsetzung einer datenzentrierten Strategie umfasst mehrere technische Prozesse, die darauf abzielen, den Datenbestand so zu gestalten, dass ein Maximum an
Informationsdichte und Konsistenz.
-
Systematische Datenbereinigung: Dies beinhaltet die Erkennung und Behebung von Fehlern in Anmerkungen, wie z. B.
Identifizierung von Bounding Boxes, die ein Objekt nicht eng
die ein Objekt nicht eng umschließen, oder die Korrektur von Fehlern bei der Klassenübereinstimmung.
-
Datenerweiterung: Die Entwickler verwenden
Techniken zur Datenerweiterung, um die
die Vielfalt des Datensatzes künstlich zu erweitern. Durch die Anwendung von Transformationen wie Rotation, Skalierung und Farbanpassung lernt das
lernt das Modell, besser auf unbekannte Umgebungen zu generalisieren.
-
Synthetische Datengenerierung: Wenn die realen Daten knapp sind, können die Teams
synthetische Daten erzeugen, um Lücken im Datensatz zu füllen,
um sicherzustellen, dass seltene Klassen angemessen vertreten sind.
-
Fehleranalyse: Anstatt nur aggregierte Metriken wie Genauigkeit zu betrachten
Genauigkeit zu betrachten, analysieren die Ingenieure bestimmte Fälle, in denen
Modell versagt und sammeln gezielt Daten, um diese spezifischen Schwächen zu beheben.
Der folgende Python demonstriert, wie datenzentrierte Augmentationstechniken während des Trainings unter Verwendung der
ultralytics Paket.
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
data="coco8.yaml",
epochs=10,
degrees=15.0, # Random rotation up to +/- 15 degrees
mixup=0.1, # Apply MixUp augmentation with 10% probability
copy_paste=0.1, # Use Copy-Paste augmentation
)
Anwendungsfälle in der Praxis
Die Annahme eines datenzentrierten Ansatzes ist in Branchen entscheidend, in denen
wo die Präzision der Computer Vision (CV)
nicht verhandelbar ist.
-
Präzisionslandwirtschaft: Unter
AI in der Landwirtschaft beruht die Unterscheidung zwischen einer
zwischen einer gesunden Pflanze und einer Pflanze im Frühstadium einer Krankheit oft auf subtile visuelle Hinweise angewiesen. Ein datenzentriertes Team würde sich darauf konzentrieren
Kuratieren eines
qualitativ hochwertigen Computer-Vision-Datensatz
der speziell Beispiele von Krankheiten unter verschiedenen Beleuchtungsbedingungen und Wachstumsstadien enthält, damit das
Modell nicht lernt, irrelevante Hintergrundmerkmale mit der Krankheitsklasse zu assoziieren.
-
Industrielle Inspektion: Für
AI in der Fertigung treten Fehler möglicherweise
nur einmal unter zehntausend Einheiten auf. Bei einem Standardmodell-Trainingslauf könnten diese seltenen Ereignisse ignoriert werden. Durch den Einsatz von
Erkennungsstrategien für Anomalien und manuelle
und die manuelle Beschaffung oder Synthese von mehr Bildern dieser spezifischen Defekte stellen die Ingenieure sicher, dass das System die hohen
Rückrufraten erreicht, die für Qualitätskontrollstandards
die von Organisationen wie der ISO definiert sind.
Unterscheidung von verwandten Konzepten
Um datenzentrische KI zu verstehen, muss man sie von ähnlichen Begriffen im Ökosystem des maschinellen Lernens unterscheiden.
-
Modell-zentrierte KI: Dies ist der umgekehrte Ansatz, bei dem der Datensatz konstant gehalten wird und
Verbesserungen gesucht werden durch
Hyperparameterabstimmung oder Architektur
Änderungen. Dieser Ansatz ist zwar notwendig, um die Grenzen des Stands der Technik in Forschungsarbeiten auf
IEEE Xplore zu finden sind, führt dies in der Produktion oft zu
Produktion im Vergleich zur Bereinigung der Daten.
-
Große Daten: Big Data bezieht sich in erster Linie auf
die Menge, Geschwindigkeit und Vielfalt der Informationen. Datenzentrierte KI erfordert nicht unbedingt "große" Daten;
Sie erfordert vielmehr "intelligente" Daten. Ein kleiner, perfekt beschrifteter Datensatz ist oft besser als ein großer, verrauschter
Daten.
-
Explorative Datenanalyse (EDA):
Datenvisualisierung und EDA sind Schritte
innerhalb des datenzentrierten Workflows. EDA hilft bei der Identifizierung von Inkonsistenzen, aber datenzentrische KI umfasst
den gesamten technischen Lebenszyklus der Behebung dieser Probleme zur Verbesserung der
Inferenzmaschine.
-
MLOps:
Betrieb für maschinelles Lernen (MLOps)
bietet die Infrastruktur und die Pipelines zur Verwaltung des Lebenszyklus der KI-Produktion. Datenzentrierte KI ist die
Methodik, die innerhalb der MLOps-Pipelines angewandt wird, um sicherzustellen, dass die durch sie fließenden Daten zuverlässige Modelle erzeugen.