Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Pre-elaborazione dei dati

Padroneggia la preelaborazione dei dati per il machine learning. Apprendi tecniche come la pulizia, il ridimensionamento e la codifica per aumentare l'accuratezza e le prestazioni del modello.

La pre-elaborazione dei dati è un passaggio cruciale nella pipeline di machine learning (ML) che prevede la pulizia, la trasformazione e l'organizzazione dei dati grezzi per renderli adatti all'addestramento e alla costruzione di modelli. I dati grezzi del mondo reale sono spesso incompleti, incoerenti e possono contenere errori. La pre-elaborazione converte questi dati disordinati in un formato pulito e ben strutturato, essenziale affinché un modello impari efficacemente. La qualità delle previsioni di un modello dipende fortemente dalla qualità dei dati su cui è addestrato, rendendo la pre-elaborazione dei dati una pratica fondamentale per ottenere un'elevata accuratezza e prestazioni affidabili nei sistemi di IA.

Attività chiave nella preelaborazione dei dati

La pre-elaborazione dei dati è un termine ampio che comprende una varietà di tecniche per preparare i dati. I passaggi specifici dipendono dal dataset e dall'attività di ML, ma le attività comuni includono:

  • Pulizia dei dati: Questo è il processo di identificazione e correzione o rimozione di errori, incongruenze e valori mancanti da un set di dati. Ciò potrebbe comportare il riempimento dei dati mancanti utilizzando metodi statistici o la rimozione di voci duplicate. I dati puliti sono la pietra angolare di qualsiasi modello affidabile.
  • Trasformazione dei dati (Data Transformation): Ciò comporta la modifica della scala o della distribuzione dei dati. Una tecnica comune è la normalizzazione, che scala le feature numeriche in un intervallo standard (ad esempio, da 0 a 1) per evitare che le feature con scale più grandi dominino il processo di apprendimento. Puoi saperne di più sui vari metodi di scalatura dalla documentazione sulla pre-elaborazione di scikit-learn.
  • Ingegneria delle Feature (Feature Engineering): Questo è il processo creativo di creazione di nuove feature da quelle esistenti per migliorare le prestazioni del modello. Ciò potrebbe comportare la combinazione di feature, la loro scomposizione o l'utilizzo della conoscenza del dominio per estrarre informazioni più significative. Un concetto correlato è l'estrazione di feature (feature extraction), che riduce automaticamente la dimensionalità dei dati.
  • Codifica dei dati categorici: Molti algoritmi di ML richiedono input numerici. La pre-elaborazione spesso comporta la conversione di dati categorici (come le etichette di testo) in un formato numerico attraverso tecniche come la codifica one-hot.
  • Ridimensionamento e aumento: Nella computer vision (CV), la preelaborazione include il ridimensionamento delle immagini a una dimensione uniforme. Può anche essere seguito dall'aumento dei dati, che espande artificialmente il dataset creando versioni modificate delle immagini.

Applicazioni AI/ML nel Mondo Reale

La pre-elaborazione dei dati è un requisito universale in tutti i domini dell'IA. La sua applicazione è fondamentale per il successo sia in compiti semplici che complessi.

  1. Analisi di immagini mediche: Prima che un modello YOLO possa essere addestrato per rilevare i tumori nelle scansioni MRI da un set di dati come il Brain Tumor dataset, le immagini devono essere preelaborate. Ciò comporta la normalizzazione dei valori di intensità dei pixel per tenere conto delle differenze nelle apparecchiature di scansione, il ridimensionamento di tutte le immagini a una dimensione di input coerente richiesta dal backbone del modello e la pulizia del set di dati per rimuovere file danneggiati o esempi etichettati in modo errato. Ciò garantisce che la rete neurale convoluzionale (CNN) apprenda le vere caratteristiche patologiche di un modello piuttosto che le variazioni nell'imaging. Puoi saperne di più nel nostro blog sull'utilizzo di YOLO per il rilevamento di tumori.
  2. Previsione delle vendite al dettaglio basata sull'IA: Per un modello che prevede la domanda dei clienti nel settore retail, i dati grezzi delle vendite contengono spesso record di transazioni mancanti, denominazione incoerente dei prodotti e caratteristiche su scale molto diverse (ad esempio, 'prezzo dell'articolo' rispetto al 'numero di articoli venduti'). La pre-elaborazione qui comporta l'imputazione dei dati di vendita mancanti, la standardizzazione dei nomi dei prodotti e la normalizzazione delle caratteristiche numeriche in modo che l'algoritmo di modellazione predittiva possa valutare efficacemente l'importanza di ciascun fattore. Una panoramica della pre-elaborazione per il business evidenzia questi passaggi.

Pre-elaborazione dei dati vs. Concetti correlati

È utile differenziare la pre-elaborazione dei dati da altri termini correlati alla gestione dei dati.

  • Pulizia dei dati: Come accennato, la pulizia dei dati è un sottoinsieme della preelaborazione dei dati. Mentre la preelaborazione è l'intero processo di preparazione dei dati per un modello, la pulizia si concentra specificamente sulla correzione degli errori, sulla gestione dei valori mancanti e sulla rimozione delle incongruenze all'interno del set di dati grezzo.
  • Aumento dei dati: L'aumento dei dati è una tecnica utilizzata per aumentare artificialmente le dimensioni dei dati di addestramento. Sebbene faccia parte della preparazione dei dati per l'addestramento, viene in genere applicato dopo che i passaggi di preelaborazione iniziali come la pulizia e il ridimensionamento sono già stati completati sul set di dati originale. L'obiettivo dell'aumento è migliorare la generalizzazione del modello, mentre la preelaborazione mira a rendere utilizzabili i dati originali.
  • Analisi dei dati: L'analisi dei dati è un campo molto più ampio che implica l'esame dei set di dati per trarre conclusioni e supportare il processo decisionale. La preelaborazione dei dati è il primo passo fondamentale all'interno di un flusso di lavoro di analisi dei dati, che include anche l'analisi esplorativa dei dati (EDA), la modellazione e la visualizzazione dei dati.

Piattaforme come Ultralytics HUB possono aiutare a gestire i dataset e a semplificare il ciclo di vita dell'ML, dalla preparazione dei dati alla distribuzione del modello. La guida sulla pre-elaborazione dei dati annotati fornisce ulteriori approfondimenti pratici.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti