Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Pre-elaborazione dei dati

Padroneggia la preelaborazione dei dati per il machine learning. Apprendi tecniche come la pulizia, il ridimensionamento e la codifica per aumentare l'accuratezza e le prestazioni del modello.

La preelaborazione dei dati è la fase iniziale critica della pipeline di apprendimento automatico, in cui i dati grezzi vengono trasformati in un formato pulito e comprensibile per gli algoritmi. formato pulito e comprensibile per gli algoritmi. I dati del mondo reale sono spesso incompleti, incoerenti e pieni di errori errori o anomalie. Se un modello viene addestrato sulla base di questi dati errati, il modello predittivo che ne risulta modelli predittivi che ne derivano produrranno probabilmente risultati imprecisi, un fenomeno spesso definito "garbage in, garbage out". Affrontando sistematicamente sistematicamente questi problemi, la preelaborazione garantisce che i dati di di alta qualità dei dati di addestramento, il che è essenziale per per ottenere un'accuratezza e una stabilità ottimali del modello.

Tecniche fondamentali di preelaborazione

Le fasi specifiche della preelaborazione variano in base al tipo di dati, che si tratti di testo, immagini o dati tabellari, ma in genere comprendono diverse operazioni fondamentali. ma in genere includono diverse operazioni fondamentali.

  • Pulizia dei dati: Si tratta di gestire i valori mancanti la gestione dei valori mancanti, la correzione dei dati rumorosi e la risoluzione delle incongruenze. Le tecniche possono includere l'imputazione voci mancanti con mezzi statistici o rimuovendo completamente i record corrotti utilizzando strumenti quali Pandas.
  • Normalizzazione e scalatura: Gli algoritmi spesso non funzionano bene quando le caratteristiche hanno scale molto diverse (ad esempio, età o reddito). La normalizzazione regola le colonne numeriche su una scala comune, ad esempio da 0 a 1, impedendo ai valori più grandi di dominare il processo di discesa del gradiente. processo di discesa del gradiente. Per saperne di più sulle strategie di scalatura nella documentazione di Scikit-learn.
  • Codifica: I modelli di apprendimento automatico richiedono tipicamente input numerici. I dati categorici (come "Rosso", "Verde", "Blu") devono essere convertiti in numeri utilizzando metodi come la codifica a un punto o codifica dell'etichetta codifica delle etichette.
  • Riduzione della dimensionalità: Tecniche come l'analisi delle componenti principali (PCA) riducono il numero di variabili di input, conservando solo le informazioni più essenziali per evitare l'overfitting e accelerare l'addestramento. overfitting e velocizzare l'addestramento.
  • Ridimensionamento delle immagini: nella computer vision (CV), le immagini devono spesso essere ridimensionate a una dimensione fissa (ad esempio, 640x640 pixel) per adattarle al livello di ingresso di una rete neurale convoluzionale (CNN). Rete neurale convoluzionale (CNN).

Applicazioni nel mondo reale

La pre-elaborazione dei dati è onnipresente in tutti i settori industriali e costituisce la spina dorsale di sistemi di intelligenza artificiale affidabili.

  1. Analisi delle immagini mediche: Quando si rilevano anomalie nelle scansioni MRI o CT, la pre-elaborazione è fondamentale. Le scansioni grezze variano in contrasto e risoluzione a seconda della macchina utilizzata. La pre-elaborazione normalizza l'intensità dei pixel e ridimensiona le immagini per garantire che l'agente AI si concentri sulle caratteristiche patologiche piuttosto che su quelle di un'immagine. agente AI si concentri sulle caratteristiche patologiche piuttosto che artefatti tecnici. Per esempio, vediamo come i ricercatori stanno utilizzando YOLO11 per il rilevamento dei tumori per migliorare la precisione diagnostica.
  2. Rilevamento delle frodi finanziarie: Nel settore bancario, i registri delle transazioni sono spesso disordinati e sbilanciati. La pre-elaborazione comporta la pulizia degli errori di timestamp e la normalizzazione degli importi delle transazioni. Inoltre, si tratta di bilanciare il set di dati - poiché le frodi sono rare - utilizzando bilanciare l'insieme dei dati - dato che le frodi sono rare - utilizzando tecniche di campionamento per garantire che il modello di rilevamento delle anomalie modello di rilevamento delle anomalie identifichi efficacemente attività sospette. IBM fornisce informazioni su come la preparazione dei dati supporta queste analisi critiche per il business.

Preelaborazione con Ultralytics YOLO

I moderni framework spesso automatizzano porzioni significative della pipeline di preelaborazione. Quando si usa YOLO11compiti come il ridimensionamento dell'immagine, il ridimensionamento dei valori dei pixel e la formattazione delle etichette vengono gestiti internamente durante il processo di addestramento. Questo permette agli sviluppatori di concentrarsi su attività di livello superiore come la valutazione del modello e la distribuzione.

L'esempio seguente mostra come YOLO11 gestisca automaticamente il ridimensionamento delle immagini tramite il comando imgsz argomento durante l'addestramento:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)

Differenziare i concetti correlati

È utile distinguere la preelaborazione dei dati da termini simili nel flusso di lavoro dell'apprendimento automatico:

  • rispetto all'aumento dei dati: Mentre la preelaborazione preelaborazione formatta i dati per renderli utilizzabili (ad esempio, ridimensionamento), l'incremento comporta la creazione di nuove variazioni sintetiche dei dati esistenti (ad esempio, rotazione, capovolgimento) per aumentare la diversità e la robustezza del set di dati. robustezza del set di dati. Per saperne di più, consultate la nostra guida all'incremento dei dati.
  • rispetto all'ingegneria delle caratteristiche: La preelaborazione si concentra sulla pulizia e sulla formattazione dei dati grezzi. L'ingegneria delle caratteristiche è una fase più creativa che prevede di ricavare nuove variabili significative dai dati (ad esempio, calcolare il "prezzo per metro quadro" da "prezzo" e "superficie") per migliorare la qualità dei dati. "prezzo" e "superficie") per migliorare le prestazioni del modello.
  • vs. etichettatura dei dati: L'etichettatura è il processo manuale o automatizzato di annotazione dei dati (come il disegno di come disegnare caselle di delimitazione) per creare una verità di base. La preelaborazione prepara le immagini etichettate e le annotazioni per la rete neurale. rete neurale.

Padroneggiando la preelaborazione dei dati, gli ingegneri gettano le basi per progetti di IA di successo, assicurando che i sofisticati sistemi di elaborazione dei dati progetti di IA, assicurando che modelli modelli sofisticati come YOLO11 e il prossimo YOLO26 possano esprimere tutto il loro potenziale. Per gestione dei set di dati e l'automazione di questi flussi di lavoro, la piattaforma Ultralytics Platform fornisce un ambiente unificato per semplificare il percorso percorso dai dati grezzi al modello implementato.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora