Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Data-Centric AI

Entdecken Sie Data-Centric AI, den Ansatz zur Verbesserung der Datensatzqualität, um die Modellleistung zu steigern. Erfahren Sie, warum bessere Daten und nicht nur ein besseres Modell der Schlüssel zu robuster KI sind.

Datenzentrierte KI ist eine Philosophie und Methodik in der Entwicklung des maschinellen Lernens (ML), die den Schwerpunkt auf die Verbesserung der Qualität der Trainingsdaten legt, anstatt sich ausschließlich auf die Optimierung der Modellarchitektur zu konzentrieren. Bei traditionellen modellzentrierten Ansätzen wird der Datensatz oft als statische Eingabe behandelt, während Ingenieure wochenlang damit beschäftigt sind, Hyperparameter abzustimmen oder komplexe neuronale Netzwerkstrukturen zu entwerfen. Umgekehrt behandelt ein datenzentrierter Ansatz den Modellcode als feste Grundlage und lenkt die Entwicklungsbemühungen in Richtung systematischer Datenbereinigung, Konsistenz der Beschriftung und Erweiterung, um die Gesamtleistung des Systems zu steigern. Diese Verlagerung berücksichtigt, dass für viele praktische Anwendungen das Prinzip „Garbage in, garbage out“ (Müll rein, Müll raus) das Haupthindernis für die Erzielung einer hohen Genauigkeit darstellt.

Die Kernphilosophie: Qualität vor Quantität

Die grundlegende Prämisse der datenzentrierten KI lautet, dass ein kleinerer, qualitativ hochwertiger Datensatz oft bessere Ergebnisse liefert als ein riesiger, verrauschter. Führende Persönlichkeiten auf diesem Gebiet, wie Andrew Ng, haben sich für diesen Wandel eingesetzt und argumentieren, dass die KI-Community in der Vergangenheit zu viel Wert auf algorithmische Innovationen gelegt hat. Um robuste Systeme zu entwickeln, müssen Ingenieure aktive Lernprozesse durchlaufen, in denen sie iterativ Fehlermodi identifizieren und diese durch Verfeinerung des Datensatzes korrigieren. Dazu gehören die präzise Datenkennzeichnung, das Entfernen von Duplikaten und die Behandlung von Randfällen , die für das Modell schwer zu classify sind.

Zu den wichtigsten Aktivitäten in diesem Arbeitsablauf gehören:

  • Systematische Fehleranalyse: Anstatt sich nur auf aggregierte Kennzahlen wie die Genauigkeit zu verlassen, analysieren Entwickler spezifische Fälle, in denen das Modell versagt – beispielsweise bei der Erkennung kleiner Objekte in Luftbildern– und sammeln gezielte Daten, um diese Schwächen zu beheben.
  • Konsistenz der Beschriftung: Es ist entscheidend, dass alle Annotatoren die gleichen Richtlinien befolgen. Tools wie Label Studio helfen Teams dabei, die Qualität der Annotationen zu verwalten, um widersprüchliche Signale zu vermeiden , die den Trainingsprozess verwirren könnten.
  • Datenanreicherung: Entwickler verwenden Datenanreicherungstechniken, um die Vielfalt des Datensatzes künstlich zu erweitern. Durch die Anwendung von Transformationen wie Drehung, Skalierung und Farbanpassung lernt das Modell, besser auf unbekannte Umgebungen zu generalisieren.
  • Generierung synthetischer Daten: Wenn reale Daten rar sind, können Teams synthetische Daten mithilfe von Simulations-Engines wie NVIDIA generieren, um Lücken im Datensatz zu füllen und sicherzustellen, dass seltene Klassen angemessen vertreten sind.

Anwendungsfälle in der Praxis

Ein datenzentrierter Ansatz ist in Branchen, in denen die Präzision der Computervision unverzichtbar ist, von entscheidender Bedeutung.

  1. Präzisionslandwirtschaft: Bei der KI in der Landwirtschaft hängt die Unterscheidung zwischen einer gesunden Pflanze und einer Pflanze im Frühstadium einer Krankheit oft von subtilen visuellen Hinweisen ab. Ein datenzentriertes Team würde sich auf die Zusammenstellung eines hochwertigen Datensatzes für die Computervisionkonzentrieren , der speziell Beispiele für Krankheiten unter verschiedenen Lichtbedingungen und in verschiedenen Wachstumsstadien enthält. Dadurch wird sichergestellt, dass das Modell nicht lernt, irrelevante Hintergrundmerkmale mit der Krankheitsklasse in Verbindung zu bringen, ein häufiges Problem, das als Shortcut-Lernen bekannt ist.
  2. Industrieinspektion: Bei der KI in der Fertigung können Fehler nur einmal in zehntausend Einheiten auftreten. Ein Standardmodell-Trainingslauf könnte diese seltenen Ereignisse aufgrund einer Klassenungleichheit ignorieren . Durch den Einsatz von Anomalieerkennungsstrategien und die manuelle Beschaffung oder Synthese weiterer Bilder dieser spezifischen Fehler stellen Ingenieure sicher, dass das System die hohen Rückrufquoten erreicht, die für Qualitätskontrollstandards von Organisationen wie ISO definiert sind.

Implementierung datenzentrierter Techniken mit Ultralytics

Sie können datenzentrierte Techniken wie Augmentation direkt in Ihrer Trainingspipeline anwenden. Der folgende Python -Code zeigt, wie Sie ein YOLO26-Modell laden und es mit aggressiven Augmentationsparametern trainieren können, um die Robustheit gegenüber Variationen zu verbessern.

from ultralytics import YOLO

# Load a YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

Unterscheidung von verwandten Konzepten

Um datenzentrierte KI zu verstehen, muss man sie von ähnlichen Begriffen im Bereich des maschinellen Lernens unterscheiden.

  • Modell-zentrierte KI: Dies ist der umgekehrte Ansatz, bei dem der Datensatz konstant gehalten wird und Verbesserungen gesucht werden durch Hyperparameterabstimmung oder Architektur Änderungen. Dieser Ansatz ist zwar notwendig, um die Grenzen des Stands der Technik in Forschungsarbeiten auf IEEE Xplore zu finden sind, führt dies in der Produktion oft zu Produktion im Vergleich zur Bereinigung der Daten.
  • Big Data: Big Data bezieht sich in erster Linie auf das Volumen, die Geschwindigkeit und die Vielfalt von Informationen. Datenzentrierte KI erfordert nicht unbedingt „große“ Datenmengen, sondern vielmehr „intelligente“ Daten. Ein kleiner, perfekt gekennzeichneter Datensatz ist oft leistungsfähiger als ein riesiger, verrauschter Datensatz, wie die Data-Centric AI Community betont.
  • Explorative Datenanalyse (EDA): Datenvisualisierung und EDA sind Schritte innerhalb des datenzentrierten Arbeitsablaufs. EDA hilft dabei, Inkonsistenzen mithilfe von Tools wie Pandas, aber datenzentrierte KI umfasst den gesamten technischen Lebenszyklus der Behebung dieser Probleme, um die Inferenz-Engine zu verbessern.
  • MLOps: Machine Learning Operations (MLOps) bietet die Infrastruktur und Pipelines zur Verwaltung des Lebenszyklus der KI-Produktion. Datenzentrierte KI ist die Methodik, die innerhalb von MLOps-Pipelines angewendet wird, um sicherzustellen, dass die durch sie fließenden Daten zuverlässige Modelle erstellen. Plattformen wie Weights & Biases werden häufig verwendet, um track sich Datenänderungen auf die Modellmetriken auswirken.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten