Glossario

ImageNet

Scopri ImageNet, l'innovativo set di dati che alimenta i progressi della computer vision con oltre 14 milioni di immagini e che alimenta la ricerca, i modelli e le applicazioni di AI.

Addestra i modelli YOLO semplicemente
con Ultralytics HUB

Per saperne di più

ImageNet è un set di dati molto ampio e fondamentale, ampiamente utilizzato nella ricerca e nello sviluppo della computer vision (CV). Contiene oltre 14 milioni di immagini che sono state annotate manualmente per indicare gli oggetti raffigurati. Queste immagini sono organizzate secondo la gerarchia WordNet, un grande database lessicale di nomi, verbi, aggettivi e avverbi English raggruppati in insiemi di sinonimi cognitivi (synset). Con oltre 20.000 categorie, ImageNet rappresenta una risorsa ricca e diversificata per l'addestramento e la valutazione di modelli di apprendimento automatico (ML), in particolare per compiti come la classificazione e il riconoscimento delle immagini. Le sue dimensioni e le annotazioni dettagliate sono state fondamentali per far progredire il campo dell'intelligenza artificiale (AI). Per saperne di più sull'utilizzo del dataset con i modelli Ultralytics , visita la pagina di documentazione del dataset ImageNet.

Significato e rilevanza

L'introduzione di ImageNet ha segnato un momento cruciale per il deep learning (DL), soprattutto nella computer vision. Prima di ImageNet, la mancanza di dataset ampi, diversificati e ben etichettati rappresentava un grosso ostacolo al progresso. I dataset di alta qualità come ImageNet hanno permesso l'addestramento di modelli molto più profondi e complessi, come le reti neurali convoluzionali (CNN), che hanno portato a progressi significativi nei compiti di comprensione visiva. L'annuale ImageNet Large Scale Visual Recognition Challenge (ILSVRC), che si è svolta dal 2010 al 2017, ha utilizzato un sottoinsieme di ImageNet ed è diventato il set di dati di riferimento standard per valutare gli algoritmi di classificazione delle immagini e di rilevamento degli oggetti. Modelli rivoluzionari come AlexNet e ResNet, che hanno ottenuto risultati all'avanguardia su ImageNet, hanno influenzato pesantemente le moderne architetture CV e hanno dimostrato la potenza del deep learning su dati di grandi dimensioni. Il documento originale dell 'ILSVRC fornisce ulteriori dettagli sulla sfida e sul suo impatto.

Applicazioni di ImageNet

L'applicazione principale di ImageNet è quella di fungere da benchmark standard per la valutazione delle prestazioni(accuratezza, velocità) di nuovi modelli e algoritmi di computer vision, in particolare per la classificazione delle immagini. La sua ampia diffusione permette ai ricercatori di confrontare i risultati in modo equo. Oltre al benchmarking, ImageNet è ampiamente utilizzato per il pre-training dei modelli. Il pre-training prevede l'addestramento di un modello sull'ampio e generico set di dati di ImageNet, consentendogli di apprendere solide caratteristiche visive. Questi modelli pre-addestrati, spesso disponibili attraverso framework come PyTorch e TensorFlowpossono poi essere messi a punto su set di dati più piccoli e specifici per varie attività a valle utilizzando l'apprendimento per trasferimento. In questo modo si riduce notevolmente la quantità di dati e di calcoli necessari per l'attività di destinazione e spesso si ottengono prestazioni migliori, soprattutto quando il set di dati di destinazione è piccolo. Molti Ultralytics YOLO di Ultralytics, ad esempio, sfruttano strategie di pre-addestramento. Piattaforme come Ultralytics HUB facilitano il processo di formazione dei modelli utilizzando tali tecniche.

Esempi del mondo reale

L'impatto di ImageNet va ben oltre la ricerca accademica e si estende alle applicazioni pratiche:

  • Analisi delle immagini mediche: I modelli pre-addestrati su ImageNet vengono spesso messi a punto per compiti specializzati nell'analisi delle immagini mediche. Sebbene le immagini mediche differiscano in modo significativo dalle foto di ImageNet, le caratteristiche visive fondamentali apprese (come bordi, texture e forme di base) forniscono un solido punto di partenza. Questo approccio accelera lo sviluppo di strumenti di IA per compiti come il rilevamento di tumori nell'imaging medico o l'identificazione di anomalie nelle radiografie o nelle TAC, contribuendo ai progressi dell'IA nel settore sanitario.
  • Sistemi autonomi: I sistemi di percezione dei veicoli autonomi e della robotica si basano molto sull'identificazione accurata di oggetti come pedoni, automobili, segnali stradali e ostacoli. Il pre-addestramento dei componenti di riconoscimento degli oggetti di questi sistemi su ImageNet li aiuta ad apprendere le caratteristiche generali degli oggetti, migliorandone la robustezza e l'affidabilità quando vengono messi a punto su dati specifici della guida o dell'ambiente operativo. Ciò contribuisce allo sviluppo di tecnologie come quelle utilizzate da Waymo e integrate nelle soluzioni di intelligenza artificiale nel settore automobilistico.

ImageNet vs. concetti correlati

È importante distinguere ImageNet dai compiti che supporta e da altri set di dati correlati:

  • ImageNet vs. Compiti CV: ImageNet è di per sé un set di dati, una raccolta di immagini etichettate. Non si tratta di un compito come la classificazione di immagini (assegnazione di una singola etichetta a un'immagine), l'individuazione di oggetti (localizzazione di oggetti con riquadri di delimitazione) o la segmentazione di immagini (assegnazione di un'etichetta a ogni pixel, compresa la segmentazione di istanze e la segmentazione semantica). Invece, ImageNet viene utilizzato principalmente per addestrare e confrontare i modelli che eseguono questi compiti, in particolare la classificazione.
  • ImageNet vs. COCO: mentre ImageNet è lo standard per la classificazione, i dataset come COCO (Common Objects in Context) sono più comunemente utilizzati per il benchmarking del rilevamento e della segmentazione degli oggetti. Questo perché COCO include annotazioni più dettagliate necessarie per questi compiti, come box di delimitazione precisi e maschere di segmentazione per pixel per più oggetti per immagine, mentre ImageNet fornisce principalmente etichette a livello di immagine (anche se esistono alcuni dati di localizzazione degli oggetti). Ultralytics supporta una serie di set di dati di computer vision per compiti diversi.

Pur essendo incredibilmente influente, ImageNet presenta anche dei limiti, tra cui potenziali pregiudizi sul set di dati che riflettono il periodo di raccolta dei dati e le fonti, una considerazione importante nell'etica dell'IA.

Leggi tutto