Glossario

Pulizia dei dati

Pulizia dei dati per progetti di intelligenza artificiale e di ML. Imparate le tecniche per correggere gli errori, migliorare la qualità dei dati e aumentare le prestazioni dei modelli in modo efficace!

La pulizia dei dati è il processo di identificazione e correzione o rimozione di dati corrotti, imprecisi, incompleti o incoerenti da un set di dati. Si tratta di un primo passo fondamentale in qualsiasi flusso di lavoro di apprendimento automatico (ML), poiché la qualità dei dati di addestramento determina direttamente le prestazioni e l'affidabilità del modello risultante. Seguendo il principio "garbage in, garbage out", la pulizia dei dati assicura che i modelli come Ultralytics YOLO siano addestrati su informazioni accurate e coerenti, con conseguente migliore precisione e previsioni più affidabili. Senza un'adeguata pulizia, i problemi di fondo dei dati possono portare a risultati distorti e a una scarsa generalizzazione del modello.

Principali compiti di pulizia dei dati

Il processo di pulizia dei dati comporta diverse attività distinte, volte a risolvere diversi tipi di problemi di qualità dei dati. Questi compiti sono spesso iterativi e possono richiedere conoscenze specifiche del dominio.

  • Gestione dei valori mancanti: I dataset spesso contengono voci mancanti, che possono essere affrontate rimuovendo i record incompleti o imputando (riempiendo) i valori mancanti utilizzando metodi statistici come la media, la mediana o modelli predittivi più avanzati. Una guida sulla gestione dei dati mancanti può fornire ulteriori informazioni.
  • Correzione di dati imprecisi: Si tratta di correggere errori tipografici, incongruenze di misura (ad esempio, libbre contro kg) e informazioni di fatto non corrette. Spesso si applicano regole di convalida dei dati per segnalare questi errori.
  • Eliminazione dei duplicati: I record duplicati possono introdurre distorsioni in un modello, attribuendo un peso eccessivo a determinati punti di dati. L'identificazione e la rimozione di queste voci ridondanti è un'operazione standard.
  • Gestione degli outlier: Gli outlier sono punti di dati che si discostano in modo significativo dalle altre osservazioni. A seconda della loro causa, possono essere rimossi, corretti o trasformati per evitare che abbiano un impatto negativo sul processo di formazione del modello. Le tecniche di rilevamento degli outlier sono ampiamente utilizzate a questo scopo.
  • Standardizzazione dei dati: Si tratta di garantire che i dati siano conformi a un formato coerente. Tra gli esempi vi sono la standardizzazione dei formati delle date, dei caratteri del testo (ad esempio, la conversione di tutto il testo in minuscolo) e delle conversioni delle unità di misura. Standard di qualità dei dati coerenti sono fondamentali per il successo.

Applicazioni AI/ML nel mondo reale

  1. Analisi delle immagini mediche: Quando si addestra un modello di rilevamento degli oggetti su un set di dati come quello dei tumori cerebrali, la pulizia dei dati è fondamentale. Il processo prevede la rimozione dei file di immagine danneggiati o di bassa qualità, la standardizzazione di tutte le immagini a una risoluzione e a un formato coerenti e la verifica della correttezza delle etichette e delle annotazioni dei pazienti. In questo modo si garantisce che il modello apprenda da informazioni chiare e affidabili, il che è essenziale per lo sviluppo di strumenti diagnostici affidabili nell'ambito dell'IA nella sanità. Il National Institute of Biomedical Imaging and Bioengineering (NIBIB) sottolinea l'importanza della qualità dei dati nella ricerca medica.
  2. L'intelligenza artificiale per la gestione dell'inventario nel settore della vendita al dettaglio: Nella vendita al dettaglio guidata dall'intelligenza artificiale, i modelli di visione computerizzata monitorano le scorte sugli scaffali utilizzando i feed delle telecamere. La pulizia dei dati è necessaria per filtrare le immagini sfocate, rimuovere i fotogrammi in cui i prodotti sono oscurati dagli acquirenti e de-duplicare i conteggi dei prodotti da più angolazioni della telecamera. La correzione di questi problemi assicura al sistema di inventario una visione accurata dei livelli delle scorte, consentendo un rifornimento più intelligente e riducendo gli sprechi. Aziende come Google Cloud offrono soluzioni di analisi in cui la qualità dei dati è fondamentale.

Pulizia dei dati e concetti correlati

È importante distinguere la pulizia dei dati dalle fasi di preparazione dei dati correlate:

  • Preelaborazione dei dati: Si tratta di un termine più ampio che comprende la pulizia dei dati ma anche altre trasformazioni per preparare i dati per i modelli di ML, come la normalizzazione (scalare le caratteristiche numeriche), la codifica delle variabili categoriche e l'estrazione delle caratteristiche. Mentre la pulizia si concentra sulla correzione degli errori, la preelaborazione si concentra sulla formattazione dei dati per gli algoritmi. Per maggiori dettagli, consultare la guida di Ultralytics sulla preelaborazione dei dati annotati.
  • Etichettatura dei dati: È il processo di aggiunta di tag o annotazioni informative (etichette) ai dati grezzi, come il disegno di caselle di delimitazione intorno agli oggetti nelle immagini per l'apprendimento supervisionato. La pulizia dei dati può comportare la correzione delle etichette errate identificate durante i controlli di qualità, ma è distinta dall'atto iniziale dell'etichettatura. La Guida alla raccolta e all'annotazione dei dati fornisce informazioni sull'etichettatura.
  • Aumento dei dati: Questa tecnica aumenta artificialmente la dimensione e la diversità del set di dati di addestramento creando copie modificate dei dati esistenti (ad esempio, ruotando le immagini, cambiando la luminosità). L'aumento dei dati mira a migliorare la generalizzazione e la robustezza del modello, mentre la pulizia dei dati si concentra sul miglioramento della qualità dei dati originali. Per saperne di più, consultare la Guida definitiva all'incremento dei dati.

La pulizia dei dati è una pratica fondamentale, spesso iterativa, che aumenta in modo significativo l'affidabilità e le prestazioni dei sistemi di intelligenza artificiale, assicurando la solidità dei dati sottostanti. Strumenti come la libreria Pandas sono comunemente utilizzati per la manipolazione e la pulizia dei dati nei flussi di lavoro ML basati su Python. Garantire la qualità dei dati attraverso una pulizia rigorosa è fondamentale per sviluppare un'IA affidabile, soprattutto quando si lavora con compiti complessi di computer vision (CV) o con dataset di riferimento su larga scala come COCO o ImageNet. Piattaforme come Ultralytics HUB possono aiutare a gestire e mantenere dataset di alta qualità durante tutto il ciclo di vita del progetto.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti