Scoprite ImageNet, l'innovativo set di dati che alimenta i progressi della computer vision con oltre 14 milioni di immagini e che alimenta la ricerca, i modelli e le applicazioni di intelligenza artificiale.
ImageNet è un enorme set di dati, accessibile al pubblico, composto da oltre 14 milioni di immagini che sono state annotate a mano per indicare quali oggetti raffigurano. Organizzato secondo la gerarchia WordNet, contiene più di 20.000 categorie, con una categoria tipica, come "palloncino" o "fragola", composta da diverse centinaia di immagini. Questa vasta e diversificata raccolta è stata determinante per l'avanzamento dei campi della computer vision (CV) e del deep learning (DL), fungendo da standard per l'addestramento e il benchmarking dei modelli.
La creazione di ImageNet da parte dei ricercatori dell'Università di Stanford ha rappresentato un momento cruciale per l'intelligenza artificiale (AI). Prima di ImageNet, i dataset erano spesso troppo piccoli per addestrare efficacemente reti neurali complesse (NN), con conseguenti problemi di overfitting. ImageNet ha fornito la scala necessaria per addestrare modelli profondi, aprendo la strada alla moderna rivoluzione dell'IA. Per saperne di più, leggete il documento di ricerca originale su ImageNet.
L'influenza di ImageNet è stata amplificata dall'ImageNet Large Scale Visual Recognition Challenge (ILSVRC), una competizione annuale tenutasi dal 2010 al 2017. Questa sfida è diventata un punto di riferimento cruciale per valutare le prestazioni degli algoritmi di computer vision. Nel 2012, una rete neurale convoluzionale (CNN) chiamata AlexNet ha ottenuto una vittoria rivoluzionaria, superando in modo significativo tutti i modelli precedenti. Questo successo ha dimostrato la potenza dell'apprendimento profondo e del calcolo su GPU, scatenando un'ondata di innovazione nel settore. L'ILSVRC è stato un motore fondamentale per lo sviluppo di molte architetture moderne ed è possibile vedere le prestazioni dei modelli odierni su vari benchmark su siti come Papers with Code.
L'uso principale di ImageNet è come risorsa per il pre-addestramento dei modelli. Addestrando un modello su questo vasto set di dati, esso impara a riconoscere un ricco insieme di caratteristiche visive. Questa conoscenza può essere trasferita a nuovi compiti più specifici. Questa tecnica è nota come apprendimento per trasferimento.
È importante differenziare ImageNet da altri termini e set di dati correlati:
I modelli come YOLO11 sono spesso pre-addestrati su ImageNet per la loro struttura di classificazione, prima di essere addestrati su COCO per le attività di rilevamento. Questo processo di formazione in più fasi sfrutta i punti di forza di entrambi i set di dati. È possibile vedere come i diversi modelli si confrontano con questi benchmark nelle nostre pagine di confronto dei modelli. Sebbene sia molto influente, vale la pena notare che ImageNet ha dei limiti, tra cui le note distorsioni del set di dati che sono importanti da considerare dal punto di vista dell'etica dell'IA.