Data-Centric AI

Esplora l'AI Data-Centric per aumentare le prestazioni del modello dando priorità alla qualità dei dati. Impara a curare set di dati per Ultralytics YOLO26 usando la piattaforma Ultralytics.

La Data-Centric AI è una filosofia e un approccio al machine learning che si concentra sul miglioramento della qualità del dataset utilizzato per addestrare un modello, anziché puntare principalmente sulla regolazione dell'architettura del modello o degli iperparametri. Nello sviluppo tradizionale incentrato sul modello, gli ingegneri spesso mantengono il dataset fisso mentre iterano sull'algoritmo per ottenere prestazioni migliori. La Data-Centric AI ribalta questo paradigma, suggerendo che per molte applicazioni moderne l'architettura del modello sia già sufficientemente avanzata e che il modo più efficace per migliorare le prestazioni sia ingegnerizzare sistematicamente i dati stessi. Ciò implica pulire, etichettare, aumentare e curare i dataset per garantire che siano coerenti, diversificati e rappresentativi del problema del mondo reale.

Link to this sectionLa filosofia principale: qualità dei dati rispetto alla quantità#

Il passaggio verso metodologie data-centric riconosce che "garbage in, garbage out" è una verità fondamentale nel machine learning. Aggiungere semplicemente più dati non è sempre la soluzione se tali dati sono rumorosi o distorti. Al contrario, questo approccio sottolinea l'importanza di dataset di computer vision di alta qualità. Dando priorità alla qualità dei dati e alla coerenza, gli sviluppatori possono spesso ottenere una maggiore precisione con dataset più piccoli e ben curati rispetto a quelli enormi e disordinati.

Questa filosofia è strettamente legata all'active learning, dove il modello aiuta a identificare quali punti dati sono più preziosi da etichettare successivamente. Strumenti come la Ultralytics Platform facilitano questo processo snellendo l'annotazione dei dati e la gestione, permettendo ai team di collaborare al miglioramento della qualità del dataset. Ciò contrasta con i flussi di lavoro di supervised learning puramente supervisionato in cui il dataset viene spesso trattato come un artefatto statico.

Link to this sectionTecniche chiave nella Data-Centric AI#

L'implementazione di una strategia data-centric comporta diversi passaggi pratici che vanno oltre la semplice raccolta di dati.

Coerenza delle etichette: Assicurarsi che tutti gli annotatori etichettino gli oggetti esattamente nello stesso modo è fondamentale. Ad esempio, nell'object detection, definire rigorosamente se includere o meno lo specchietto laterale di un'auto nel bounding box può avere un impatto significativo sulle prestazioni del modello.
Data Augmentation: Applicare sistematicamente trasformazioni ai dati esistenti per coprire casi limite. Puoi leggere la nostra guida definitiva alla data augmentation per comprendere come tecniche come la rotazione e la mosaic augmentation aiutino i modelli a generalizzare meglio.
Analisi degli errori: identificare classi o scenari specifici in cui il modello fallisce e raccogliere dati mirati per colmare tali lacune. Questo spesso comporta l'ispezione delle confusion matrices per individuare le debolezze.
Pulizia dei dati: Rimozione di immagini duplicate, correzione di esempi etichettati erroneamente e filtraggio di dati di bassa qualità che potrebbero confondere la neural network.

Link to this sectionApplicazioni nel mondo reale#

Gli approcci data-centric stanno trasformando i settori in cui l'affidabilità non è negoziabile.

Imaging medico: In campi come la rilevazione di tumori nell'imaging medico, ottenere milioni di immagini è impossibile. Invece, i ricercatori si concentrano sulla cura di dataset altamente accurati e revisionati da esperti. Un approccio data-centric assicura che ogni pixel in una maschera di segmentazione sia preciso, poiché etichette ambigue possono portare a errori potenzialmente letali.
Controllo qualità nella produzione: Quando si implementano sistemi di ispezione visiva, difetti come graffi o ammaccature sono rari rispetto ai pezzi perfetti. Una strategia data-centric prevede la sintetizzazione o l'acquisizione specifica di dati sui difetti per bilanciare il dataset, garantendo che il modello non preveda semplicemente "pass" per ogni elemento.

Link to this sectionData-Centric AI vs. Model-Centric AI#

È importante distinguere la Data-Centric AI dalla Model-Centric AI. In un flusso di lavoro model-centric, il dataset è fisso e l'obiettivo è migliorare le metriche modificando l'architettura del modello (ad esempio, passando da YOLO11 a una ResNet personalizzata) o regolando parametri come il learning rate. In un flusso di lavoro data-centric, l'architettura del modello è fissa (ad esempio, standardizzando su YOLO26) e l'obiettivo è migliorare le metriche pulendo le etichette, aggiungendo esempi diversificati o gestendo gli outliers.

Il seguente snippet di codice dimostra una semplice ispezione data-centric: verificare che nel tuo dataset non ci siano immagini corrotte prima dell'addestramento. Questo assicura che la tua training pipeline non fallisca a causa di dati errati.

from ultralytics.data.utils import check_cls_dataset

# Validate a classification dataset structure and integrity
# This helps identify issues with data organization before training begins
try:
    # Checks the dataset defined in a YAML or path structure
    check_cls_dataset("mnist", split="train")
    print("Dataset structure is valid and ready for data-centric curation.")
except Exception as e:
    print(f"Data issue found: {e}")

Link to this sectionStrumenti per lo sviluppo Data-Centric#

Per praticare efficacemente la Data-Centric AI, gli sviluppatori si affidano a strumenti robusti. La Ultralytics Platform funge da hub centrale per la gestione del ciclo di vita dei tuoi dati, offrendo funzionalità per l'auto-annotazione che accelera il processo di etichettatura mantenendo la coerenza. Inoltre, l'utilizzo degli explorer tools consente agli utenti di interrogare i propri dataset semanticamente (ad esempio, "trova tutte le immagini di auto rosse di notte") per comprendere la distribuzione e i bias.

Concentrandosi sui dati, gli ingegneri possono costruire sistemi più robusti, equi e pratici per l'implementazione in ambienti dinamici come i veicoli autonomi o lo smart retail. Questo cambiamento riconosce che per molti problemi il codice è un problema risolto, ma i dati rimangono la frontiera dell'innovazione.

Explore solutions

AI nella Robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Data-Centric AI

Link to this sectionLa filosofia principale: qualità dei dati rispetto alla quantità#

Link to this sectionTecniche chiave nella Data-Centric AI#

Link to this sectionApplicazioni nel mondo reale#

Link to this sectionData-Centric AI vs. Model-Centric AI#

Link to this sectionStrumenti per lo sviluppo Data-Centric#

Explore solutions

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

Costruiamo insieme il futuro dell'AI!