Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

Dati di addestramento

Scopri l'importanza dei dati di addestramento nell'IA. Scopri come i dataset di qualità alimentano modelli di machine learning accurati e robusti per attività reali.

I dati di addestramento sono il dataset fondamentale utilizzato per insegnare a un modello di machine learning (ML) come fare previsioni o prendere decisioni accurate. Nell'apprendimento supervisionato, questi dati consistono in campioni di input abbinati a output corretti corrispondenti, spesso chiamati etichette o annotazioni. Il modello apprende iterativamente da questi esempi, regolando i suoi pesi del modello interni per ridurre al minimo la differenza tra le sue previsioni e le etichette effettive. La qualità, la quantità e la diversità dei dati di addestramento sono i fattori più critici che influenzano le prestazioni di un modello e la sua capacità di generalizzare a dati nuovi e non visti.

L'importanza di dati di training di alta qualità

Il principio "garbage in, garbage out" è particolarmente vero per l'addestramento di modelli di ML. Dati di alta qualità sono essenziali per costruire sistemi robusti e affidabili. Le caratteristiche principali includono:

  • Pertinenza: I dati devono riflettere accuratamente il problema che il modello intende risolvere.
  • Diversità: Dovrebbe coprire un'ampia gamma di scenari, casi limite e variazioni che il modello incontrerà nel mondo reale per evitare l'overfitting.
  • Etichettatura accurata: Le annotazioni devono essere corrette e coerenti. Il processo di etichettatura dei dati è spesso la parte più dispendiosa in termini di tempo di un progetto di computer vision.
  • Volume Sufficiente: In genere, è necessaria una grande quantità di dati affinché il modello apprenda schemi significativi. Tecniche come l'aumento dei dati possono aiutare a espandere artificialmente il set di dati.
  • Bassa distorsione (Bias): I dati devono essere bilanciati e rappresentativi per prevenire la distorsione del dataset, che può portare a un comportamento del modello ingiusto o errato. Comprendere la distorsione algoritmica è un aspetto chiave dello sviluppo responsabile dell'IA.

Piattaforme come Ultralytics HUB forniscono strumenti per gestire i set di dati durante l'intero ciclo di vita dello sviluppo del modello, mentre strumenti open source come CVAT sono popolari per le attività di annotazione.

Esempi reali

  1. Veicoli autonomi: Per addestrare un modello di rilevamento di oggetti per veicoli autonomi, gli sviluppatori utilizzano grandi quantità di dati di addestramento provenienti da telecamere e sensori. Questi dati sono costituiti da immagini e video in cui ogni fotogramma è meticolosamente etichettato. Pedoni, ciclisti, altre auto e segnali stradali sono racchiusi in bounding box. Addestrandosi su set di dati come Argoverse o nuScenes, l'AI del veicolo impara a percepire e navigare nel suo ambiente in modo sicuro.
  2. Analisi di immagini mediche: In ambito sanitario, i dati di addestramento per l'analisi di immagini mediche possono consistere in migliaia di risonanze magnetiche o TAC. I radiologi annotano queste immagini per evidenziare tumori, fratture o altre patologie. Un modello ML, come uno costruito con Ultralytics YOLO, può essere addestrato su un dataset di tumori cerebrali per imparare a identificare queste anomalie, agendo come un potente strumento per assistere i medici nel formulare diagnosi più rapide e accurate. Risorse come The Cancer Imaging Archive (TCIA) forniscono accesso pubblico a tali dati per la ricerca.

Dati di addestramento vs. Dati di validazione e test

In un tipico progetto di ML, i dati sono suddivisi in tre insiemi distinti:

Mantenere una rigorosa separazione tra questi set di dati è essenziale per sviluppare modelli affidabili. I modelli all'avanguardia sono spesso pre-addestrati su ampi set di dati di riferimento come COCO o ImageNet, che fungono da ampi dati di addestramento. Puoi trovare altri set di dati su piattaforme come Google Dataset Search e Kaggle Datasets.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti