Scoprite ImageNet, l'innovativo set di dati che alimenta i progressi della computer vision con oltre 14 milioni di immagini e che alimenta la ricerca, i modelli e le applicazioni di intelligenza artificiale.
ImageNet è un enorme database visivo, ampiamente citato, progettato per essere utilizzato nella ricerca sul software di riconoscimento degli oggetti visivi. Contiene oltre 14 milioni di immagini che sono state annotate a mano per indicare quali oggetti sono raffigurati e, in oltre un milione di immagini, dove si trovano gli oggetti con dei riquadri di delimitazione. un milione di immagini, dove si trovano gli oggetti con i riquadri di delimitazione. Organizzato secondo la gerarchia gerarchia di WordNet, ImageNet mappa le immagini a concetti specifici o " synset". "synset", che ne fanno una risorsa fondamentale per l'addestramento e la valutazione dei modelli di modelli di computer vision (CV). La sua immensa scala e la sua diversità hanno permesso ai ricercatori di andare oltre gli esperimenti su piccola scala, dando di fatto il via all'era moderna del deep learning (DL). deep learning (DL).
Prima di ImageNet, i ricercatori hanno lottato con dataset troppo piccoli per addestrare reti neurali profonde (NN) senza incontrare problemi. reti neurali profonde (NN) senza incorrere in un overfitting. Creato dai ricercatori dello Stanford Vision and Learning Lab, ImageNet ha risolto il problema della scarsità di dati. Si è guadagnato la ribalta mondiale grazie al ImageNet Large Scale Visual Recognition Challenge (ILSVRC), una gara annuale che si è svolta dal 2010 al 2017. competizione annuale che si è svolta dal 2010 al 2017.
Questo concorso è diventato il banco di prova di famose architetture. Nel 2012, l'architettura architettura AlexNet ha vinto il concorso con un margine significativo utilizzando una rete neurale convoluzionale (CNN), dimostrando la fattibilità dell'apprendimento profondo sulle unità di elaborazione grafica (GPU). unità di elaborazione grafica (GPU). Gli anni successivi hanno visto l'affermarsi di modelli più profondi e complessi come VGG e ResNet, che hanno hanno ulteriormente ridotto i tassi di errore e superato le prestazioni umane in compiti di classificazione specifici.
Sebbene ImageNet sia un set di dati, la sua utilità più pratica oggi risiede nel l 'apprendimento per trasferimento. L'addestramento di una rete neurale profonda da zero richiede enormi quantità di dati di dati di addestramento e di potenza di calcolo. Invece, gli sviluppatori utilizzano spesso modelli che sono già stati "pre-addestrati" su ImageNet.
Poiché ImageNet copre una vasta gamma di oltre 20.000 categorie, dalle razze di cani agli articoli per la casa, un modello addestrato su di esso apprende rappresentazioni di caratteristiche ricche e di alto livello. Queste caratteristiche apprese fungono da potente potente spina dorsale per i nuovi modelli. Mettendo a punto regolazione fine di questi pesi pre-addestrati, gli sviluppatori possono ottenere un'elevata accuratezza sui loro specifici set di dati personalizzati con un numero significativamente inferiore di immagini.
L'influenza di ImageNet si estende praticamente a tutti i settori che utilizzano l'intelligenza artificiale (AI). intelligenza artificiale (AI).
Gli sviluppatori possono facilmente accedere a modelli pre-addestrati su ImageNet utilizzando la libreria Ultralytics . Il seguente esempio mostra come caricare un modello YOLO11 modello di classificazione, che viene fornito con i pesi di ImageNet per impostazione predefinita, e utilizzarlo per predire la classe di un'immagine.
from ultralytics import YOLO
# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")
# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
È importante distinguere ImageNet dal COCO (Common Objects in Context).
Mentre ImageNet viene utilizzato per insegnare ai modelli "come vedere", i dataset come COCO vengono utilizzati per insegnare loro a localizzare e separare gli oggetti in scene complesse. e separare gli oggetti in scene complesse. Spesso, il codificatore di un modello viene pre-addestrato su ImageNet prima di essere addestrato su COCO per i compiti di rilevamento. COCO per i compiti di rilevamento.