Scopri ImageNet, il set di dati rivoluzionario che alimenta i progressi della computer vision con oltre 14 milioni di immagini, potenziando la ricerca, i modelli e le applicazioni di IA.
ImageNet è un enorme set di dati accessibile pubblicamente di oltre 14 milioni di immagini che sono state annotate manualmente per indicare quali oggetti raffigurano. Organizzato secondo la gerarchia di WordNet, contiene più di 20.000 categorie, con una categoria tipica, come "palloncino" o "fragola", composta da diverse centinaia di immagini. Questa vasta e diversificata raccolta è stata determinante per far progredire i campi della computer vision (CV) e del deep learning (DL), fungendo da standard per l'addestramento e il benchmarking dei modelli.
La creazione di ImageNet da parte dei ricercatori della Stanford University è stato un momento cruciale per l'intelligenza artificiale (AI). Prima di ImageNet, i set di dati erano spesso troppo piccoli per addestrare efficacemente reti neurali (NN) complesse, portando a problemi come l'overfitting. ImageNet ha fornito la scala necessaria per addestrare modelli profondi, aprendo la strada alla moderna rivoluzione dell'AI. Puoi saperne di più leggendo l'articolo di ricerca originale di ImageNet.
L'influenza di ImageNet è stata amplificata dall'ImageNet Large Scale Visual Recognition Challenge (ILSVRC), una competizione annuale che si è tenuta dal 2010 al 2017. Questa sfida è diventata un punto di riferimento cruciale per valutare le prestazioni degli algoritmi di computer vision. Nel 2012, una rete neurale convoluzionale (CNN) chiamata AlexNet ha ottenuto una vittoria rivoluzionaria, superando significativamente tutti i modelli precedenti. Questo successo ha dimostrato la potenza del deep learning e del calcolo GPU, innescando un'ondata di innovazione nel settore. L'ILSVRC è stato un motore chiave nello sviluppo di molte architetture moderne, ed è possibile vedere come i modelli odierni si comportano su vari benchmark su siti come Papers with Code.
L'uso principale di ImageNet è come risorsa per i modelli di pre-training. Addestrando un modello su questo vasto set di dati, impara a riconoscere un ricco insieme di caratteristiche visive. Questa conoscenza può quindi essere trasferita a nuove attività più specifiche. Questa tecnica è nota come transfer learning.
È importante distinguere ImageNet da altri termini e dataset correlati:
Modelli come YOLO11 sono spesso pre-addestrati su ImageNet per il loro backbone di classificazione prima di essere addestrati su COCO per compiti di rilevamento. Questo processo di addestramento multi-stadio sfrutta i punti di forza di entrambi i dataset. Puoi vedere come si confrontano i diversi modelli su questi benchmark nelle nostre pagine di confronto dei modelli. Sebbene sia molto influente, vale la pena notare che ImageNet ha dei limiti, tra cui i noti bias del dataset che sono importanti da considerare da una prospettiva di etica dell'IA.