Glossar

Data-Centric AI

Entdecken Sie Data-Centric AI, den Ansatz zur Verbesserung der Datensatzqualität, um die Modellleistung zu steigern. Erfahren Sie, warum bessere Daten und nicht nur ein besseres Modell der Schlüssel zu robuster KI sind.

Datenzentrierte KI ist ein strategischer Ansatz zur Entwicklung Künstliche Intelligenz (KI) Systeme der sich in erster Linie auf die Verbesserung der Qualität der Trainingsdaten konzentriert und nicht auf die Iteration der Modellarchitektur. In traditionellen Arbeitsabläufen betrachten Entwickler den Datensatz oft als festen Input und verwenden viel Mühe auf die Optimierung von Hyperparametern oder dem Entwurf komplexer Strukturen neuronaler Netze (NN). Im Gegensatz dazu behandelt eine datenzentrierte Methodik hingegen behandelt den Modellcode - wie etwa die Architektur von Ultralytics YOLO11-als eine relativ statische Basislinie, richtet die technischen Bemühungen auf die systematische Datenbereinigung, die Konsistenz der Beschriftung und die Erweiterung zur Steigerung der Leistung.

Die Kernphilosophie: Qualität vor Quantität

Die Effektivität eines jeden maschinellen Lernsystems (ML) ist grundsätzlich durch das Prinzip "Garbage in, garbage out" begrenzt. Selbst die fortschrittlichsten Algorithmen können keine effektive Muster aus verrauschten oder falsch beschrifteten Eingaben lernen. Die datenzentrierte KI geht davon aus, dass für viele praktische Anwendungen die Trainingsdaten die wichtigste die wichtigste Variable für den Erfolg sind. Bei diesem Ansatz wird betont, dass ein kleinerer, hochwertiger Datensatz oft bessere Ergebnisse liefert bessere Ergebnisse liefert als ein großer, verrauschter Datensatz.

Befürworter dieser Philosophie, wie z. B. Andrew Ng, argumentieren, dass der dass der Schwerpunkt der KI-Gemeinschaft unverhältnismäßig stark auf modellzentrierte Innovationen ausgerichtet ist. Um robuste Systeme zu bauen, müssen Ingenieure in aktive Lernprozesse eingebunden werden in denen sie iterativ Fehlermodi identifizieren und diese durch Verfeinerung des Datensatzes korrigieren. Dies beinhaltet präzise Datenbeschriftung, das Entfernen von Duplikaten und die Behandlung Fällen, die das Modell nur schwer classify kann.

Schlüsseltechniken und Umsetzung

Die Umsetzung einer datenzentrierten Strategie umfasst mehrere technische Prozesse, die darauf abzielen, den Datenbestand so zu gestalten, dass ein Maximum an Informationsdichte und Konsistenz.

Systematische Datenbereinigung: Dies beinhaltet die Erkennung und Behebung von Fehlern in Anmerkungen, wie z. B. Identifizierung von Bounding Boxes, die ein Objekt nicht eng die ein Objekt nicht eng umschließen, oder die Korrektur von Fehlern bei der Klassenübereinstimmung.
Datenerweiterung: Die Entwickler verwenden Techniken zur Datenerweiterung, um die die Vielfalt des Datensatzes künstlich zu erweitern. Durch die Anwendung von Transformationen wie Rotation, Skalierung und Farbanpassung lernt das lernt das Modell, besser auf unbekannte Umgebungen zu generalisieren.
Synthetische Datengenerierung: Wenn die realen Daten knapp sind, können die Teams synthetische Daten erzeugen, um Lücken im Datensatz zu füllen, um sicherzustellen, dass seltene Klassen angemessen vertreten sind.
Fehleranalyse: Anstatt nur aggregierte Metriken wie Genauigkeit zu betrachten Genauigkeit zu betrachten, analysieren die Ingenieure bestimmte Fälle, in denen Modell versagt und sammeln gezielt Daten, um diese spezifischen Schwächen zu beheben.

Der folgende Python demonstriert, wie datenzentrierte Augmentationstechniken während des Trainings unter Verwendung der ultralytics Paket.

from ultralytics import YOLO

# Load the YOLO11 model
model = YOLO("yolo11n.pt")

# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
    data="coco8.yaml",
    epochs=10,
    degrees=15.0,  # Random rotation up to +/- 15 degrees
    mixup=0.1,  # Apply MixUp augmentation with 10% probability
    copy_paste=0.1,  # Use Copy-Paste augmentation
)

Anwendungsfälle in der Praxis

Die Annahme eines datenzentrierten Ansatzes ist in Branchen entscheidend, in denen wo die Präzision der Computer Vision (CV) nicht verhandelbar ist.

Präzisionslandwirtschaft: Unter AI in der Landwirtschaft beruht die Unterscheidung zwischen einer zwischen einer gesunden Pflanze und einer Pflanze im Frühstadium einer Krankheit oft auf subtile visuelle Hinweise angewiesen. Ein datenzentriertes Team würde sich darauf konzentrieren Kuratieren eines qualitativ hochwertigen Computer-Vision-Datensatz der speziell Beispiele von Krankheiten unter verschiedenen Beleuchtungsbedingungen und Wachstumsstadien enthält, damit das Modell nicht lernt, irrelevante Hintergrundmerkmale mit der Krankheitsklasse zu assoziieren.
Industrielle Inspektion: Für AI in der Fertigung treten Fehler möglicherweise nur einmal unter zehntausend Einheiten auf. Bei einem Standardmodell-Trainingslauf könnten diese seltenen Ereignisse ignoriert werden. Durch den Einsatz von Erkennungsstrategien für Anomalien und manuelle und die manuelle Beschaffung oder Synthese von mehr Bildern dieser spezifischen Defekte stellen die Ingenieure sicher, dass das System die hohen Rückrufraten erreicht, die für Qualitätskontrollstandards die von Organisationen wie der ISO definiert sind.

Unterscheidung von verwandten Konzepten

Um datenzentrische KI zu verstehen, muss man sie von ähnlichen Begriffen im Ökosystem des maschinellen Lernens unterscheiden.

Modell-zentrierte KI: Dies ist der umgekehrte Ansatz, bei dem der Datensatz konstant gehalten wird und Verbesserungen gesucht werden durch Hyperparameterabstimmung oder Architektur Änderungen. Dieser Ansatz ist zwar notwendig, um die Grenzen des Stands der Technik in Forschungsarbeiten auf IEEE Xplore zu finden sind, führt dies in der Produktion oft zu Produktion im Vergleich zur Bereinigung der Daten.
Große Daten: Big Data bezieht sich in erster Linie auf die Menge, Geschwindigkeit und Vielfalt der Informationen. Datenzentrierte KI erfordert nicht unbedingt "große" Daten; Sie erfordert vielmehr "intelligente" Daten. Ein kleiner, perfekt beschrifteter Datensatz ist oft besser als ein großer, verrauschter Daten.
Explorative Datenanalyse (EDA): Datenvisualisierung und EDA sind Schritte innerhalb des datenzentrierten Workflows. EDA hilft bei der Identifizierung von Inkonsistenzen, aber datenzentrische KI umfasst den gesamten technischen Lebenszyklus der Behebung dieser Probleme zur Verbesserung der Inferenzmaschine.
MLOps: Betrieb für maschinelles Lernen (MLOps) bietet die Infrastruktur und die Pipelines zur Verwaltung des Lebenszyklus der KI-Produktion. Datenzentrierte KI ist die Methodik, die innerhalb der MLOps-Pipelines angewandt wird, um sicherzustellen, dass die durch sie fließenden Daten zuverlässige Modelle erzeugen.

Data-Centric AI

Trainieren Sie Ultralytics YOLO zur Rationalisierung von Arbeitsabläufen in verschiedenen Branchen

Flexible Enterprise-Lizenzlösung zur Förderung Ihrer Innovationen

Trainieren Sie AI-Modelle in Sekundenschnelle mit Ultralytics YOLO

Die Kernphilosophie: Qualität vor Quantität

Schlüsseltechniken und Umsetzung

Anwendungsfälle in der Praxis

Unterscheidung von verwandten Konzepten

Mehr in dieser Kategorie lesen

Die Oakley Meta AI-Brille definiert mit Vision AI die Welt der Brillen neu.

Computer Vision macht Ferngläser für die Vogelbeobachtung intelligenter

Selbstüberwachtes Lernen zur Rauschunterdrückung: Eine schrittweise Aufschlüsselung

Werden Sie Mitglied der Ultralytics