Pre-elaborazione dei dati
Padroneggia la preelaborazione dei dati per il machine learning. Apprendi tecniche come la pulizia, il ridimensionamento e la codifica per aumentare l'accuratezza e le prestazioni del modello.
La preelaborazione dei dati è la fase iniziale critica della pipeline di apprendimento automatico, in cui i dati grezzi vengono trasformati in un formato pulito e comprensibile per gli algoritmi.
formato pulito e comprensibile per gli algoritmi. I dati del mondo reale sono spesso incompleti, incoerenti e pieni di errori
errori o anomalie. Se un modello viene addestrato sulla base di questi dati errati, il modello predittivo che ne risulta
modelli predittivi che ne derivano produrranno probabilmente
risultati imprecisi, un fenomeno spesso definito "garbage in, garbage out". Affrontando sistematicamente
sistematicamente questi problemi, la preelaborazione garantisce che i dati di
di alta qualità dei dati di addestramento, il che è essenziale per
per ottenere un'accuratezza e una stabilità ottimali del modello.
Tecniche fondamentali di preelaborazione
Le fasi specifiche della preelaborazione variano in base al tipo di dati, che si tratti di testo, immagini o dati tabellari, ma in genere comprendono diverse operazioni fondamentali.
ma in genere includono diverse operazioni fondamentali.
-
Pulizia dei dati: Si tratta di gestire i valori mancanti
la gestione dei valori mancanti, la correzione dei dati rumorosi e la risoluzione delle incongruenze. Le tecniche possono includere l'imputazione
voci mancanti con mezzi statistici o rimuovendo completamente i record corrotti utilizzando strumenti quali
Pandas.
-
Normalizzazione e scalatura:
Gli algoritmi spesso non funzionano bene quando le caratteristiche hanno scale molto diverse (ad esempio, età o reddito). La normalizzazione
regola le colonne numeriche su una scala comune, ad esempio da 0 a 1, impedendo ai valori più grandi di dominare il processo di discesa del gradiente.
processo di discesa del gradiente. Per saperne di più
sulle strategie di scalatura nella documentazione di
Scikit-learn.
-
Codifica: I modelli di apprendimento automatico richiedono tipicamente input numerici. I dati categorici (come
"Rosso", "Verde", "Blu") devono essere convertiti in numeri utilizzando metodi come la
codifica a un punto o codifica dell'etichetta
codifica delle etichette.
-
Riduzione della dimensionalità: Tecniche come
l'analisi delle componenti principali (PCA)
riducono il numero di variabili di input, conservando solo le informazioni più essenziali per evitare l'overfitting e accelerare l'addestramento.
overfitting e velocizzare l'addestramento.
-
Ridimensionamento delle immagini: nella
computer vision (CV), le immagini devono spesso essere
ridimensionate a una dimensione fissa (ad esempio, 640x640 pixel) per adattarle al livello di ingresso di una rete neurale convoluzionale (CNN).
Rete neurale convoluzionale (CNN).
Applicazioni nel mondo reale
La pre-elaborazione dei dati è onnipresente in tutti i settori industriali e costituisce la spina dorsale di sistemi di intelligenza artificiale affidabili.
-
Analisi delle immagini mediche:
Quando si rilevano anomalie nelle scansioni MRI o CT, la pre-elaborazione è fondamentale. Le scansioni grezze variano in contrasto e risoluzione
a seconda della macchina utilizzata. La pre-elaborazione normalizza l'intensità dei pixel e ridimensiona le immagini per garantire che l'agente AI si concentri sulle caratteristiche patologiche piuttosto che su quelle di un'immagine.
agente AI si concentri sulle caratteristiche patologiche piuttosto che
artefatti tecnici. Per esempio, vediamo come i ricercatori stanno
utilizzando YOLO11 per il rilevamento dei tumori
per migliorare la precisione diagnostica.
-
Rilevamento delle frodi finanziarie: Nel settore bancario, i registri delle transazioni sono spesso disordinati e sbilanciati.
La pre-elaborazione comporta la pulizia degli errori di timestamp e la normalizzazione degli importi delle transazioni. Inoltre, si tratta di bilanciare il set di dati - poiché le frodi sono rare - utilizzando
bilanciare l'insieme dei dati - dato che le frodi sono rare - utilizzando tecniche di campionamento per garantire che il modello di rilevamento delle anomalie
modello di rilevamento delle anomalie identifichi efficacemente
attività sospette. IBM fornisce informazioni su come la preparazione dei dati
supporta queste analisi critiche per il business.
Preelaborazione con Ultralytics YOLO
I moderni framework spesso automatizzano porzioni significative della pipeline di preelaborazione. Quando si usa
YOLO11compiti come il ridimensionamento dell'immagine, il ridimensionamento dei valori dei pixel e la formattazione delle etichette vengono gestiti
internamente durante il processo di addestramento. Questo permette agli sviluppatori di concentrarsi su attività di livello superiore come la
valutazione del modello e la distribuzione.
L'esempio seguente mostra come YOLO11 gestisca automaticamente il ridimensionamento delle immagini tramite il comando imgsz argomento
durante l'addestramento:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)
Differenziare i concetti correlati
È utile distinguere la preelaborazione dei dati da termini simili nel flusso di lavoro dell'apprendimento automatico:
-
rispetto all'aumento dei dati: Mentre la preelaborazione
preelaborazione formatta i dati per renderli utilizzabili (ad esempio, ridimensionamento), l'incremento comporta la creazione di nuove
variazioni sintetiche dei dati esistenti (ad esempio, rotazione, capovolgimento) per aumentare la diversità e la robustezza del set di dati.
robustezza del set di dati. Per saperne di più, consultate la nostra
guida all'incremento dei dati.
-
rispetto all'ingegneria delle caratteristiche:
La preelaborazione si concentra sulla pulizia e sulla formattazione dei dati grezzi. L'ingegneria delle caratteristiche è una fase più creativa che prevede
di ricavare nuove variabili significative dai dati (ad esempio, calcolare il "prezzo per metro quadro" da "prezzo" e "superficie") per migliorare la qualità dei dati.
"prezzo" e "superficie") per migliorare le
prestazioni del modello.
-
vs. etichettatura dei dati: L'etichettatura è il
processo manuale o automatizzato di annotazione dei dati (come il disegno di
come disegnare caselle di delimitazione) per creare una verità di base.
La preelaborazione prepara le immagini etichettate e le annotazioni per la rete neurale.
rete neurale.
Padroneggiando la preelaborazione dei dati, gli ingegneri gettano le basi per progetti di IA di successo, assicurando che i sofisticati sistemi di elaborazione dei dati
progetti di IA, assicurando che modelli
modelli sofisticati come YOLO11 e il prossimo YOLO26 possano esprimere tutto il loro potenziale. Per
gestione dei set di dati e l'automazione di questi flussi di lavoro, la piattaforma
Ultralytics Platform fornisce un ambiente unificato per semplificare il percorso
percorso dai dati grezzi al modello implementato.