Training Data

Scopri come i dati di addestramento alimentano i modelli IA. Esplora l'approvvigionamento, l'annotazione e come addestrare Ultralytics YOLO26 per una precisione superiore nelle attività di computer vision.

I dati di addestramento sono il set di dati iniziale utilizzato per insegnare a un modello di machine learning come riconoscere schemi, fare previsioni o eseguire compiti specifici. Fungono da manuale fondamentale per i sistemi di intelligenza artificiale, fornendo la verità di base (ground truth) che l'algoritmo analizza per regolare i propri parametri interni. Nel contesto dell'apprendimento supervisionato, i dati di addestramento consistono in campioni di input abbinati alle relative etichette di output, consentendo al modello di apprendere la relazione tra i due. La qualità, la quantità e la diversità di questi dati influenzano direttamente l'accuratezza finale del modello e la sua capacità di generalizzare verso nuove informazioni non viste in precedenza.

Link to this sectionIl ruolo dei dati di addestramento nell'IA#

La funzione primaria dei dati di addestramento è minimizzare l'errore tra le previsioni del modello e i risultati reali. Durante il processo di addestramento del modello, l'algoritmo elabora i dati in modo iterativo, identificando caratteristiche — come i bordi in un'immagine o le parole chiave in una frase — che correlano con etichette specifiche. Questo processo è distinto dai dati di validazione, utilizzati per regolare gli iperparametri durante l'addestramento, e dai dati di test, riservati alla valutazione finale delle prestazioni del modello.

I dati di addestramento di alta qualità devono essere rappresentativi degli scenari del mondo reale che il modello incontrerà. Se il set di dati contiene bias o manca di diversità, il modello potrebbe soffrire di overfitting, dove memorizza gli esempi di addestramento ma non riesce a gestire bene nuovi input. Al contrario, l' underfitting si verifica quando i dati sono troppo semplici o insufficienti affinché il modello possa cogliere gli schemi sottostanti.

Link to this sectionApplicazioni nel mondo reale#

I dati di addestramento alimentano l'innovazione in quasi ogni settore, permettendo ai sistemi di imparare da esempi storici.

IA nell'assistenza sanitaria: Nella diagnostica medica, i dati di addestramento potrebbero consistere in migliaia di immagini di raggi X etichettate come "sane" o contenenti patologie specifiche come la polmonite. Elaborando questi esempi etichettati, modelli come Ultralytics YOLO26 possono imparare ad assistere i radiologi evidenziando potenziali anomalie con alta precisione, accelerando significativamente i tempi di diagnosi.
Veicoli autonomi: Le auto a guida autonoma si basano su enormi set di dati contenenti milioni di chilometri di riprese di guida. Questi dati di addestramento includono fotogrammi annotati che mostrano pedoni, segnali stradali, altri veicoli e segnaletica orizzontale. Provenienti da librerie complete come il Waymo Open Dataset o nuScenes, queste informazioni insegnano al sistema di percezione del veicolo a navigare in ambienti complessi in sicurezza.

Link to this sectionReperire e gestire i dati#

Acquisire dati di addestramento robusti è spesso la parte più impegnativa di un progetto di machine learning. I dati possono essere reperiti da repository pubblici come Google Dataset Search o collezioni specializzate come COCO per il rilevamento di oggetti. Tuttavia, i dati grezzi spesso richiedono un'attenta pulizia dei dati e un'annotazione per garantirne l'accuratezza.

Strumenti come la Ultralytics Platform hanno semplificato questo flusso di lavoro, offrendo un ambiente integrato per caricare, etichettare e gestire i set di dati. Una gestione efficace comporta anche la data augmentation, una tecnica utilizzata per aumentare artificialmente le dimensioni del set di addestramento applicando trasformazioni — come il capovolgimento, la rotazione o la regolazione del colore — alle immagini esistenti. Questo aiuta i modelli a diventare più robusti contro le variazioni nei dati di input.

Link to this sectionEsempio pratico con YOLO26#

Il seguente esempio in Python dimostra come avviare l'addestramento utilizzando la libreria ultralytics. Qui, un modello pre-addestrato YOLO26 viene perfezionato sul COCO8 dataset, un piccolo set di dati progettato per verificare le pipeline di addestramento.

from ultralytics import YOLO

# Load a pre-trained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 5 epochs
# The 'data' argument specifies the dataset configuration file
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

Link to this sectionImportanza della qualità dei dati#

L'adagio "immondizia dentro, immondizia fuori" (garbage in, garbage out) è fondamentale per il machine learning. Anche le architetture più sofisticate, come i Transformers o le Convolutional Neural Networks (CNNs) profonde, non possono compensare dati di addestramento scadenti. Problemi come il rumore nelle etichette, in cui le etichette di verità sono errate, possono degradare gravemente le prestazioni. Pertanto, rigorosi processi di controllo qualità, che spesso coinvolgono la verifica human-in-the-loop, sono essenziali per mantenere l'integrità del set di dati.

Inoltre, aderire ai principi di Etica nell'IA richiede che i dati di addestramento vengano esaminati per rilevare bias demografici o socioeconomici. Garantire l' equità nell'IA inizia con un set di dati di addestramento equilibrato e rappresentativo, che aiuta a prevenire risultati discriminatori nelle applicazioni distribuite.

Training Data

Link to this sectionIl ruolo dei dati di addestramento nell'IA#

Link to this sectionApplicazioni nel mondo reale#

Link to this sectionReperire e gestire i dati#

Link to this sectionEsempio pratico con YOLO26#

Link to this sectionImportanza della qualità dei dati#

Explore solutions

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

AI nella Robotica

IA nella logistica

AI nel settore Retail

IA nel settore sanitario

IA nella produzione

AI nel settore automobilistico

AI in Agricoltura

Costruiamo insieme il futuro dell'AI!