Scopri ImageNet, l'innovativo set di dati che alimenta i progressi della computer vision con oltre 14 milioni di immagini e che alimenta la ricerca, i modelli e le applicazioni di AI.
ImageNet è un set di dati molto ampio e fondamentale, ampiamente utilizzato nella ricerca e nello sviluppo della computer vision (CV). Contiene oltre 14 milioni di immagini che sono state annotate manualmente per indicare gli oggetti raffigurati. Queste immagini sono organizzate secondo la gerarchia WordNet, un grande database lessicale di nomi, verbi, aggettivi e avverbi English raggruppati in insiemi di sinonimi cognitivi (synset). Con oltre 20.000 categorie, ImageNet rappresenta una risorsa ricca e diversificata per l'addestramento e la valutazione di modelli di apprendimento automatico (ML), in particolare per compiti come la classificazione e il riconoscimento delle immagini. Le sue dimensioni e le annotazioni dettagliate sono state fondamentali per far progredire il campo dell'intelligenza artificiale (AI). Per saperne di più sull'utilizzo del dataset con i modelli Ultralytics , visita la pagina di documentazione del dataset ImageNet.
L'introduzione di ImageNet ha segnato un momento cruciale per il deep learning (DL), soprattutto nella computer vision. Prima di ImageNet, la mancanza di dataset ampi, diversificati e ben etichettati rappresentava un grosso ostacolo al progresso. I dataset di alta qualità come ImageNet hanno permesso l'addestramento di modelli molto più profondi e complessi, come le reti neurali convoluzionali (CNN), che hanno portato a progressi significativi nei compiti di comprensione visiva. L'annuale ImageNet Large Scale Visual Recognition Challenge (ILSVRC), che si è svolta dal 2010 al 2017, ha utilizzato un sottoinsieme di ImageNet ed è diventato il set di dati di riferimento standard per valutare gli algoritmi di classificazione delle immagini e di rilevamento degli oggetti. Modelli rivoluzionari come AlexNet e ResNet, che hanno ottenuto risultati all'avanguardia su ImageNet, hanno influenzato pesantemente le moderne architetture CV e hanno dimostrato la potenza del deep learning su dati di grandi dimensioni. Il documento originale dell 'ILSVRC fornisce ulteriori dettagli sulla sfida e sul suo impatto.
L'applicazione principale di ImageNet è quella di fungere da benchmark standard per la valutazione delle prestazioni(accuratezza, velocità) di nuovi modelli e algoritmi di computer vision, in particolare per la classificazione delle immagini. La sua ampia diffusione permette ai ricercatori di confrontare i risultati in modo equo. Oltre al benchmarking, ImageNet è ampiamente utilizzato per il pre-training dei modelli. Il pre-training prevede l'addestramento di un modello sull'ampio e generico set di dati di ImageNet, consentendogli di apprendere solide caratteristiche visive. Questi modelli pre-addestrati, spesso disponibili attraverso framework come PyTorch e TensorFlowpossono poi essere messi a punto su set di dati più piccoli e specifici per varie attività a valle utilizzando l'apprendimento per trasferimento. In questo modo si riduce notevolmente la quantità di dati e di calcoli necessari per l'attività di destinazione e spesso si ottengono prestazioni migliori, soprattutto quando il set di dati di destinazione è piccolo. Molti Ultralytics YOLO di Ultralytics, ad esempio, sfruttano strategie di pre-addestramento. Piattaforme come Ultralytics HUB facilitano il processo di formazione dei modelli utilizzando tali tecniche.
L'impatto di ImageNet va ben oltre la ricerca accademica e si estende alle applicazioni pratiche:
È importante distinguere ImageNet dai compiti che supporta e da altri set di dati correlati:
Pur essendo incredibilmente influente, ImageNet presenta anche dei limiti, tra cui potenziali pregiudizi sul set di dati che riflettono il periodo di raccolta dei dati e le fonti, una considerazione importante nell'etica dell'IA.