Glossario

Preelaborazione dei dati

Preelaborazione dei dati per l'apprendimento automatico. Imparate tecniche come la pulizia, il ridimensionamento e la codifica per aumentare l'accuratezza e le prestazioni dei modelli.

La preelaborazione dei dati è una fase cruciale della pipeline dell'apprendimento automatico (ML) che prevede la pulizia, la trasformazione e l'organizzazione dei dati grezzi per renderli adatti all'addestramento e alla creazione di modelli. I dati grezzi provenienti dal mondo reale sono spesso incompleti, incoerenti e possono contenere errori. La preelaborazione converte questi dati disordinati in un formato pulito e ben strutturato, essenziale per l'apprendimento efficace di un modello. La qualità delle previsioni di un modello dipende in larga misura dalla qualità dei dati su cui è stato addestrato, rendendo la preelaborazione dei dati una pratica fondamentale per ottenere un'elevata precisione e prestazioni affidabili nei sistemi di intelligenza artificiale.

Compiti chiave nella preelaborazione dei dati

La preelaborazione dei dati è un termine ampio che comprende una serie di tecniche di preparazione dei dati. Le fasi specifiche dipendono dal set di dati e dall'attività di analisi ML, ma le attività comuni includono:

  • Pulizia dei dati: È il processo di identificazione e correzione o rimozione di errori, incongruenze e valori mancanti da un set di dati. Ciò può comportare il riempimento dei dati mancanti con metodi statistici o la rimozione di voci duplicate. La pulizia dei dati è la chiave di volta di qualsiasi modello affidabile.
  • Trasformazione dei dati: Si tratta di modificare la scala o la distribuzione dei dati. Una tecnica comune è la normalizzazioneche scala le caratteristiche numeriche a un intervallo standard (ad esempio, da 0 a 1) per evitare che le caratteristiche con scale maggiori dominino il processo di apprendimento. Per saperne di più sui vari metodi di scalatura, consultare la documentazione sulla preelaborazione di scikit-learn.
  • Ingegneria delle caratteristiche: È il processo creativo di creazione di nuove caratteristiche da quelle esistenti per migliorare le prestazioni del modello. Ciò può comportare la combinazione di caratteristiche, la loro scomposizione o l'utilizzo della conoscenza del dominio per estrarre informazioni più significative. Un concetto correlato è quello di estrazione di caratteristicheche riduce automaticamente la dimensionalità dei dati.
  • Codifica di dati categorici: Molti algoritmi di ML richiedono input numerici. La pre-elaborazione spesso comporta la conversione di dati categorici (come le etichette di testo) in un formato numerico attraverso tecniche come la codifica a un punto.
  • Ridimensionamento e incremento: Nella computer vision (CV), la preelaborazione comprende il ridimensionamento delle immagini a una dimensione uniforme. Può anche essere seguita da aumento dei datiche espande artificialmente il set di dati creando versioni modificate delle immagini.

Applicazioni AI/ML nel mondo reale

La preelaborazione dei dati è un requisito universale in tutti i settori dell'intelligenza artificiale. La sua applicazione è fondamentale per il successo in compiti sia semplici che complessi.

  1. Analisi di immagini mediche: Prima che un modello YOLO possa essere addestrato a rilevare i tumori nelle scansioni MRI da un set di dati come quello dei tumori cerebrali, le immagini devono essere preelaborate. Ciò comporta la normalizzazione dei valori di intensità dei pixel per tenere conto delle differenze tra le apparecchiature di scansione, il ridimensionamento di tutte le immagini a una dimensione di input coerente richiesta dalla struttura portante del modello e la pulizia del set di dati per rimuovere i file danneggiati o gli esempi etichettati in modo errato. In questo modo la rete neurale convoluzionale (CNN) apprende le vere caratteristiche patologiche del modello piuttosto che le variazioni dell'imaging. Per saperne di più, consultare il nostro blog sull'uso di YOLO per il rilevamento dei tumori.
  2. Previsioni di vendita al dettaglio potenziate dall'intelligenza artificiale: Per un modello che prevede la domanda dei clienti nel settore della vendita al dettaglio, i dati di vendita grezzi spesso contengono record di transazioni mancanti, nomi di prodotti incoerenti e caratteristiche su scale molto diverse (ad esempio, "prezzo dell'articolo" rispetto a "numero di articoli venduti"). La pre-elaborazione comporta l'imputazione dei dati di vendita mancanti, la standardizzazione dei nomi dei prodotti e la normalizzazione delle caratteristiche numeriche in modo che l'algoritmo di modellazione predittiva possa pesare efficacemente l'importanza di ciascun fattore. Una panoramica della pre-elaborazione per le imprese evidenzia queste fasi.

Preelaborazione dei dati e concetti correlati

È utile distinguere la preelaborazione dei dati da altri termini correlati alla gestione dei dati.

  • Pulizia dei dati: Come già detto, la pulizia dei dati è un sottoinsieme della preelaborazione dei dati. Mentre la preelaborazione è l'intero processo di preparazione dei dati per un modello, la pulizia si concentra specificamente sulla correzione degli errori, sulla gestione dei valori mancanti e sulla rimozione delle incongruenze all'interno del set di dati grezzi.
  • Aumento dei dati: L'aumento dei dati è una tecnica utilizzata per aumentare artificialmente le dimensioni dei dati di addestramento. Pur facendo parte della preparazione dei dati per l'addestramento, in genere viene applicata dopo che le fasi iniziali di preelaborazione, come la pulizia e il ridimensionamento, sono già state completate sul set di dati originale. L'obiettivo dell'aumento è migliorare la generalizzazione del modello, mentre la preelaborazione mira a rendere utilizzabili i dati originali.
  • Analisi dei dati: L'analisi dei dati è un campo molto più ampio che prevede l'esame di insiemi di dati per trarre conclusioni e supportare il processo decisionale. La preelaborazione dei dati è il primo passo fondamentale di un flusso di lavoro di data analytics, che comprende anche l'analisi esplorativa dei dati (EDA), la modellazione e la visualizzazione dei dati.

Piattaforme come Ultralytics HUB possono aiutare a gestire i set di dati e a semplificare il ciclo di vita del ML, dalla preparazione dei dati alla distribuzione dei modelli. La guida sulla pre-elaborazione dei dati annotati fornisce ulteriori spunti pratici.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti