Sintonizzati su YOLO Vision 2025!
25 settembre 2025
10:00 — 18:00 BST
Evento ibrido
Yolo Vision 2024
Glossario

ImageNet

Scopri ImageNet, il set di dati rivoluzionario che alimenta i progressi della computer vision con oltre 14 milioni di immagini, potenziando la ricerca, i modelli e le applicazioni di IA.

ImageNet è un enorme set di dati accessibile pubblicamente di oltre 14 milioni di immagini che sono state annotate manualmente per indicare quali oggetti raffigurano. Organizzato secondo la gerarchia di WordNet, contiene più di 20.000 categorie, con una categoria tipica, come "palloncino" o "fragola", composta da diverse centinaia di immagini. Questa vasta e diversificata raccolta è stata determinante per far progredire i campi della computer vision (CV) e del deep learning (DL), fungendo da standard per l'addestramento e il benchmarking dei modelli.

La creazione di ImageNet da parte dei ricercatori della Stanford University è stato un momento cruciale per l'intelligenza artificiale (AI). Prima di ImageNet, i set di dati erano spesso troppo piccoli per addestrare efficacemente reti neurali (NN) complesse, portando a problemi come l'overfitting. ImageNet ha fornito la scala necessaria per addestrare modelli profondi, aprendo la strada alla moderna rivoluzione dell'AI. Puoi saperne di più leggendo l'articolo di ricerca originale di ImageNet.

L'Imagenet Large Scale Visual Recognition Challenge (ILSVRC)

L'influenza di ImageNet è stata amplificata dall'ImageNet Large Scale Visual Recognition Challenge (ILSVRC), una competizione annuale che si è tenuta dal 2010 al 2017. Questa sfida è diventata un punto di riferimento cruciale per valutare le prestazioni degli algoritmi di computer vision. Nel 2012, una rete neurale convoluzionale (CNN) chiamata AlexNet ha ottenuto una vittoria rivoluzionaria, superando significativamente tutti i modelli precedenti. Questo successo ha dimostrato la potenza del deep learning e del calcolo GPU, innescando un'ondata di innovazione nel settore. L'ILSVRC è stato un motore chiave nello sviluppo di molte architetture moderne, ed è possibile vedere come i modelli odierni si comportano su vari benchmark su siti come Papers with Code.

Applicazioni reali di Imagenet

L'uso principale di ImageNet è come risorsa per i modelli di pre-training. Addestrando un modello su questo vasto set di dati, impara a riconoscere un ricco insieme di caratteristiche visive. Questa conoscenza può quindi essere trasferita a nuove attività più specifiche. Questa tecnica è nota come transfer learning.

  1. Analisi di immagini mediche: Un modello pre-addestrato su ImageNet, come un modello Ultralytics YOLO, può essere sottoposto a fine-tuning su un dataset di scansioni mediche specializzato molto più piccolo per rilevare condizioni specifiche come i tumori. L'addestramento iniziale su ImageNet fornisce una solida base di comprensione visiva generale, fondamentale per ottenere un'elevata precisione nelle attività di analisi di immagini mediche in cui i dati etichettati sono scarsi. Questa è un'applicazione chiave per l'IA in ambito sanitario.
  2. Riconoscimento dei Prodotti nel Retail: Nel retail, i modelli possono essere adattati per identificare migliaia di prodotti diversi su uno scaffale per la gestione automatizzata dell'inventario. Invece di eseguire il training da zero, un modello pre-addestrato su ImageNet può essere rapidamente adattato ai prodotti specifici di un negozio. Ciò riduce la necessità di enormi quantità di dati di training personalizzati e accelera il deployment del modello. Molte potenti soluzioni di IA nel retail sfruttano questo approccio.

Imagenet e concetti correlati

È importante distinguere ImageNet da altri termini e dataset correlati:

  • ImageNet vs. Attività di CV: ImageNet stesso è un dataset—una raccolta di immagini etichettate. Non è un'attività. Invece, viene utilizzato per addestrare e valutare modelli che eseguono attività come la classificazione delle immagini, in cui viene assegnata una singola etichetta a un'immagine. Questo differisce dal rilevamento di oggetti, che implica l'individuazione di oggetti con bounding box, o dalla segmentazione dell'immagine, che classifica ogni pixel in un'immagine.
  • ImageNet vs. COCO: Mentre ImageNet è il gold standard per la classificazione, altri dataset di computer vision sono più adatti per altre attività. Il dataset COCO (Common Objects in Context), ad esempio, è il benchmark preferito per il rilevamento di oggetti e la segmentazione di istanze. Questo perché COCO fornisce annotazioni più dettagliate, come bounding box e maschere di segmentazione per pixel per più oggetti in ogni immagine. Al contrario, la maggior parte delle immagini ImageNet ha solo una singola etichetta a livello di immagine.

Modelli come YOLO11 sono spesso pre-addestrati su ImageNet per il loro backbone di classificazione prima di essere addestrati su COCO per compiti di rilevamento. Questo processo di addestramento multi-stadio sfrutta i punti di forza di entrambi i dataset. Puoi vedere come si confrontano i diversi modelli su questi benchmark nelle nostre pagine di confronto dei modelli. Sebbene sia molto influente, vale la pena notare che ImageNet ha dei limiti, tra cui i noti bias del dataset che sono importanti da considerare da una prospettiva di etica dell'IA.

Unisciti alla community di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora
Link copiato negli appunti