Glossario

Set di dati di riferimento

Scoprite come i dataset di riferimento guidano l'innovazione dell'IA consentendo una valutazione equa dei modelli, la riproducibilità e il progresso nell'apprendimento automatico.

Un dataset di benchmark è un dataset standardizzato e di alta qualità utilizzato nell'apprendimento automatico (ML) per valutare e confrontare le prestazioni di diversi algoritmi e modelli in modo equo e riproducibile. Questi set di dati sono accuratamente curati e ampiamente accettati dalla comunità di ricerca, e servono come base comune per misurare i progressi in compiti specifici come il rilevamento di oggetti o la classificazione di immagini. Testando i modelli con gli stessi dati e le stesse metriche di valutazione, i ricercatori e gli sviluppatori possono determinare oggettivamente quali approcci sono più efficaci, più veloci o più efficienti. L'uso dei benchmark è fondamentale per far progredire lo stato dell'arte dell'intelligenza artificiale (IA).

L'importanza del benchmarking

Nel campo in rapida evoluzione della computer vision (CV), i dataset di riferimento sono indispensabili. Essi forniscono una base stabile per valutare i miglioramenti e le innovazioni dei modelli. Senza di essi, sarebbe difficile sapere se una nuova architettura di modello o una nuova tecnica di addestramento rappresentano davvero un progresso o se le sue prestazioni sono semplicemente dovute al fatto di essere state testate su un set di dati diverso, potenzialmente più facile. Le classifiche pubbliche, spesso associate a sfide come l'ImageNet Large Scale Visual Recognition Challenge (ILSVRC), utilizzano questi dataset per promuovere una sana competizione e tracciare in modo trasparente i progressi. Questo processo incoraggia lo sviluppo di modelli più robusti e generalizzabili, che è cruciale per l'impiego dei modelli nel mondo reale.

Esempi del mondo reale

  1. Confronto tra i modelli di rilevamento degli oggetti: Quando Ultralytics sviluppa un nuovo modello come YOLO11, le sue prestazioni vengono rigorosamente testate su set di dati di riferimento standard come COCO. I risultati, misurati da parametri come la precisione media (mAP), vengono confrontati con le versioni precedenti(YOLOv8, YOLOv10) e con altri modelli all'avanguardia. Questi confronti aiutano gli utenti a scegliere il modello migliore per le loro esigenze. Piattaforme come Ultralytics HUB consentono agli utenti di addestrare i modelli e di confrontarli con dati personalizzati.
  2. Progressi nella guida autonoma: Le aziende che sviluppano tecnologie per i veicoli autonomi fanno molto affidamento su benchmark come Argoverse o nuScenes. Questi set di dati contengono complessi scenari di guida urbana con annotazioni dettagliate per auto, pedoni e ciclisti. Valutando i loro modelli di percezione su questi benchmark, le aziende possono misurare i miglioramenti nell'accuratezza del rilevamento, nell'affidabilità del tracciamento e nella robustezza complessiva del sistema, che è fondamentale per garantire la sicurezza dell'IA per le auto a guida autonoma.

Benchmark rispetto ad altri set di dati

È importante distinguere i dataset di benchmark da altre suddivisioni di dati utilizzate nel ciclo di vita del ML:

  • Dati di formazione: Utilizzati per apprendere il modello regolando i suoi parametri in base agli esempi di input e alle etichette corrispondenti. Si tratta in genere della porzione più ampia dei dati. In questo caso si applicano spesso tecniche come l'aumento dei dati.
  • Dati di convalida: Utilizzati durante l'addestramento per mettere a punto gli iperparametri del modello (come il tasso di apprendimento o le scelte di architettura) e fornire una stima imparziale dell'abilità del modello. Aiuta a prevenire l'adattamento eccessivo ai dati di addestramento.
  • Dati del test: Utilizzati dopo che il modello è stato completamente addestrato per fornire una valutazione finale e imparziale delle sue prestazioni su dati non visti.

Sebbene un dataset di benchmark serva spesso come set di test standardizzato, il suo scopo principale è più ampio: fornire uno standard comune per il confronto tra l'intera comunità di ricerca. Molti dataset di benchmark sono elencati e monitorati su piattaforme come Papers with Code, che ospita classifiche per vari compiti di ML. Altri dataset di rilievo sono Open Images V7 di Google e la sfida Pascal VOC. L'accesso a questi set di dati di alta qualità per la visione artificiale è essenziale per chiunque costruisca sistemi di intelligenza artificiale affidabili.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti