IA Data-Centric
Scopri l'AI Data-Centric, l'approccio per migliorare la qualità del set di dati per aumentare le prestazioni del modello. Scopri perché dati migliori, e non solo un modello migliore, sono fondamentali per un'IA solida.
L'intelligenza artificiale centrata sui dati è un approccio strategico allo sviluppo di sistemi di
sistemi di intelligenza artificiale (AI)
che si concentra principalmente sul miglioramento della qualità dei dati di addestramento piuttosto che sull'iterazione dell'architettura del modello.
Nei flussi di lavoro tradizionali, gli sviluppatori spesso trattano il set di dati come un input fisso e spendono sforzi significativi per modificare gli iperparametri o progettare modelli complessi.
iperparametri o a progettare complesse
strutture di reti neurali (NN) complesse. Al contrario, una metodologia
metodologia incentrata sui dati tratta il codice del modello, ad esempio l'architettura di
Ultralytics YOLO11-come una base relativamente statica,
indirizzando gli sforzi ingegneristici verso la pulizia sistematica dei dati, la coerenza dell'etichettatura e l'aumento delle prestazioni.
prestazioni.
La filosofia di base: Qualità più che quantità
L'efficacia di qualsiasi
di apprendimento automatico (ML) è fondamentalmente
limitato dal principio "garbage in, garbage out". Anche gli algoritmi più avanzati non possono imparare
modelli efficaci da input rumorosi o etichettati in modo errato. L'IA incentrata sui dati sostiene che per molte applicazioni pratiche i dati di
applicazioni pratiche, i dati di addestramento sono la variabile più
variabile più significativa per il successo. Questo approccio sottolinea che un set di dati più piccolo e di alta qualità spesso produce risultati migliori di uno
risultati migliori di uno enorme e rumoroso.
I sostenitori di questa filosofia, come Andrew Ng, sostengono che l'attenzione della comunità dell'IA si è
della comunità dell'IA si sono concentrati in modo sproporzionato sull'innovazione centrata sul modello. Per costruire sistemi robusti,
per costruire sistemi robusti, gli ingegneri devono impegnarsi in processi di apprendimento attivo
in cui identificano iterativamente le modalità di guasto e le correggono affinando il set di dati. Questo comporta una precisa
dati, eliminando i duplicati e gestendo i casi limite che il modello trova difficile
casi limite che il modello trova difficili da classify.
Tecniche chiave e implementazione
L'implementazione di una strategia incentrata sui dati comporta diversi processi tecnici volti a progettare il set di dati per ottenere la massima densità e coerenza delle informazioni.
densità e coerenza delle informazioni.
-
Pulizia sistematica dei dati: Si tratta di individuare e correggere gli errori nelle annotazioni, come ad esempio
identificare i riquadri di delimitazione che non
un oggetto o correggere gli errori di mancata corrispondenza delle classi.
-
Aumento dei dati: Gli sviluppatori utilizzano
tecniche di incremento dei dati per espandere artificialmente
artificialmente la diversità del set di dati. Applicando trasformazioni come la rotazione, il ridimensionamento e l'aggiustamento del colore, il modello
modello impara a generalizzare meglio ad ambienti sconosciuti.
-
Generazione di dati sintetici: Quando i dati del mondo reale sono scarsi, i team possono generare
dati sintetici per colmare le lacune del set di dati,
assicurarsi che le classi rare siano adeguatamente rappresentate.
-
Analisi degli errori: Invece di guardare solo alle metriche aggregate come la
precisione, gli ingegneri analizzano i casi specifici in cui il modello
modello fallisce e raccolgono dati mirati per risolvere questi specifici punti deboli.
Il seguente codice Python dimostra come applicare le tecniche di incremento centrate sui dati durante l'addestramento, utilizzando il metodo
ultralytics pacchetto.
from ultralytics import YOLO
# Load the YOLO11 model
model = YOLO("yolo11n.pt")
# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
data="coco8.yaml",
epochs=10,
degrees=15.0, # Random rotation up to +/- 15 degrees
mixup=0.1, # Apply MixUp augmentation with 10% probability
copy_paste=0.1, # Use Copy-Paste augmentation
)
Applicazioni nel mondo reale
L'adozione di un approccio incentrato sui dati è fondamentale nei settori in cui la precisione della
di visione computerizzata (CV) la precisione è
precisione non è negoziabile.
-
Agricoltura di precisione: In
AI in agricoltura, la distinzione tra una coltura
un raccolto sano e uno con una malattia in fase iniziale spesso si basa su sottili indicazioni visive. Un team incentrato sui dati si concentrerebbe sulla
curare un
set di dati di visione artificiale di alta qualità
di alta qualità che includa esempi di malattie in diverse condizioni di illuminazione e fasi di crescita, assicurando che il modello non impari ad associare
che il modello non impari ad associare caratteristiche di sfondo irrilevanti alla classe di malattia.
-
Ispezione industriale: Per l'IA nella produzione
AI nella produzione, i difetti potrebbero verificarsi
solo una volta ogni diecimila unità. Un modello di addestramento standard potrebbe ignorare questi eventi rari. Impiegando strategie di
strategie di rilevamento delle anomalie e di
manualmente o sintetizzando un maggior numero di immagini di questi difetti specifici, gli ingegneri assicurano che il sistema raggiunga gli alti tassi di richiamo richiesti dagli standard di controllo qualità.
di richiamo richiesti dagli standard di controllo della qualità
di controllo della qualità definiti da organizzazioni come l'ISO.
Distinguere i concetti correlati
Per comprendere l'IA centrata sui dati è necessario distinguerla da termini simili nell'ecosistema dell'apprendimento automatico.
-
IA centrata sul modello: si tratta dell'approccio inverso, in cui il set di dati viene mantenuto costante e si cercano miglioramenti attraverso il
miglioramenti sono ricercati attraverso
regolazione degli iperparametri o di modifiche architettoniche
modifiche architettoniche. Sebbene sia necessario per spingere i limiti dello stato dell'arte nei documenti di ricerca trovati su
IEEE Xplore, spesso in produzione i rendimenti diminuiscono rispetto alla pulizia dei dati.
produzione rispetto alla pulizia dei dati.
-
Big Data: I Big Data si riferiscono principalmente
il volume, la velocità e la varietà delle informazioni. L'intelligenza artificiale centrata sui dati non richiede necessariamente dati "grandi";
piuttosto, richiede dati "intelligenti". Un set di dati piccolo e perfettamente etichettato è spesso superiore a uno enorme e rumoroso.
rumoroso.
-
Analisi esplorativa dei dati (EDA):
La visualizzazione dei dati e l'EDA sono fasi
all'interno del flusso di lavoro incentrato sui dati. L'EDA aiuta a identificare le incongruenze, ma l'intelligenza artificiale centrata sui dati comprende
l'intero ciclo di vita dell'ingegneria per risolvere questi problemi e migliorare il motore di inferenza.
motore di inferenza.
-
MLOps:
Operazioni di apprendimento automatico (MLOps)
fornisce l'infrastruttura e le pipeline per gestire il ciclo di vita della produzione di IA. L'intelligenza artificiale centrata sui dati è la
metodologia applicata nelle pipeline MLOps per garantire che i dati che vi transitano creino modelli affidabili.