Glossario

ImageNet

Scoprite ImageNet, l'innovativo set di dati che alimenta i progressi della computer vision con oltre 14 milioni di immagini e che alimenta la ricerca, i modelli e le applicazioni di intelligenza artificiale.

ImageNet è un enorme set di dati, accessibile al pubblico, composto da oltre 14 milioni di immagini che sono state annotate a mano per indicare quali oggetti raffigurano. Organizzato secondo la gerarchia WordNet, contiene più di 20.000 categorie, con una categoria tipica, come "palloncino" o "fragola", composta da diverse centinaia di immagini. Questa vasta e diversificata raccolta è stata determinante per l'avanzamento dei campi della computer vision (CV) e del deep learning (DL), fungendo da standard per l'addestramento e il benchmarking dei modelli.

La creazione di ImageNet da parte dei ricercatori dell'Università di Stanford ha rappresentato un momento cruciale per l'intelligenza artificiale (AI). Prima di ImageNet, i dataset erano spesso troppo piccoli per addestrare efficacemente reti neurali complesse (NN), con conseguenti problemi di overfitting. ImageNet ha fornito la scala necessaria per addestrare modelli profondi, aprendo la strada alla moderna rivoluzione dell'IA. Per saperne di più, leggete il documento di ricerca originale su ImageNet.

La sfida di riconoscimento visivo su larga scala di Imagenet (ILSVRC)

L'influenza di ImageNet è stata amplificata dall'ImageNet Large Scale Visual Recognition Challenge (ILSVRC), una competizione annuale tenutasi dal 2010 al 2017. Questa sfida è diventata un punto di riferimento cruciale per valutare le prestazioni degli algoritmi di computer vision. Nel 2012, una rete neurale convoluzionale (CNN) chiamata AlexNet ha ottenuto una vittoria rivoluzionaria, superando in modo significativo tutti i modelli precedenti. Questo successo ha dimostrato la potenza dell'apprendimento profondo e del calcolo su GPU, scatenando un'ondata di innovazione nel settore. L'ILSVRC è stato un motore fondamentale per lo sviluppo di molte architetture moderne ed è possibile vedere le prestazioni dei modelli odierni su vari benchmark su siti come Papers with Code.

Applicazioni reali di Imagenet

L'uso principale di ImageNet è come risorsa per il pre-addestramento dei modelli. Addestrando un modello su questo vasto set di dati, esso impara a riconoscere un ricco insieme di caratteristiche visive. Questa conoscenza può essere trasferita a nuovi compiti più specifici. Questa tecnica è nota come apprendimento per trasferimento.

  1. Analisi delle immagini mediche: Un modello pre-addestrato su ImageNet, come il modello YOLO di Ultralytics, può essere messo a punto su un set di dati molto più piccolo e specializzato di scansioni mediche per rilevare condizioni specifiche come i tumori. L'addestramento iniziale su ImageNet fornisce una solida base di comprensione visiva generale, fondamentale per ottenere un'elevata precisione nelle attività di analisi delle immagini mediche in cui i dati etichettati sono scarsi. Si tratta di un'applicazione chiave per l'IA nel settore sanitario.
  2. Riconoscimento dei prodotti al dettaglio: Nel settore della vendita al dettaglio, i modelli possono essere adattati per identificare migliaia di prodotti diversi su uno scaffale per la gestione automatizzata dell'inventario. Invece di addestrare da zero, un modello pre-addestrato su ImageNet può essere rapidamente adattato ai prodotti specifici di un negozio. Questo riduce la necessità di enormi quantità di dati di addestramento personalizzati e accelera la distribuzione del modello. Molte potenti soluzioni di AI nel settore della vendita al dettaglio sfruttano questo approccio.

Imagenet vs. concetti correlati

È importante differenziare ImageNet da altri termini e set di dati correlati:

  • ImageNet vs. compiti CV: ImageNet è di per sé un set di dati, unaraccolta di immagini etichettate. Non è un compito. Viene invece utilizzato per addestrare e confrontare modelli che eseguono compiti come la classificazione delle immagini, in cui viene assegnata una singola etichetta a un'immagine. Questo differisce dal rilevamento di oggetti, che comporta la localizzazione di oggetti con caselle di delimitazione, o dalla segmentazione di immagini, che classifica ogni pixel di un'immagine.
  • ImageNet vs. COCO: mentre ImageNet è il gold standard per la classificazione, altri dataset di computer vision sono più adatti per altri compiti. Il dataset COCO (Common Objects in Context), ad esempio, è il benchmark preferito per il rilevamento degli oggetti e la segmentazione delle istanze. Questo perché COCO fornisce annotazioni più dettagliate, come bounding box e maschere di segmentazione per pixel per più oggetti in ogni immagine. Al contrario, la maggior parte delle immagini ImageNet ha solo una singola etichetta a livello di immagine.

I modelli come YOLO11 sono spesso pre-addestrati su ImageNet per la loro struttura di classificazione, prima di essere addestrati su COCO per le attività di rilevamento. Questo processo di formazione in più fasi sfrutta i punti di forza di entrambi i set di dati. È possibile vedere come i diversi modelli si confrontano con questi benchmark nelle nostre pagine di confronto dei modelli. Sebbene sia molto influente, vale la pena notare che ImageNet ha dei limiti, tra cui le note distorsioni del set di dati che sono importanti da considerare dal punto di vista dell'etica dell'IA.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti