Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

ImageNet

Scoprite ImageNet, l'innovativo set di dati che alimenta i progressi della computer vision con oltre 14 milioni di immagini e che alimenta la ricerca, i modelli e le applicazioni di intelligenza artificiale.

ImageNet è un enorme database visivo, ampiamente citato, progettato per essere utilizzato nella ricerca sul software di riconoscimento degli oggetti visivi. Contiene oltre 14 milioni di immagini che sono state annotate a mano per indicare quali oggetti sono raffigurati e, in oltre un milione di immagini, dove si trovano gli oggetti con dei riquadri di delimitazione. un milione di immagini, dove si trovano gli oggetti con i riquadri di delimitazione. Organizzato secondo la gerarchia gerarchia di WordNet, ImageNet mappa le immagini a concetti specifici o " synset". "synset", che ne fanno una risorsa fondamentale per l'addestramento e la valutazione dei modelli di modelli di computer vision (CV). La sua immensa scala e la sua diversità hanno permesso ai ricercatori di andare oltre gli esperimenti su piccola scala, dando di fatto il via all'era moderna del deep learning (DL). deep learning (DL).

L'evoluzione del riconoscimento visivo

Prima di ImageNet, i ricercatori hanno lottato con dataset troppo piccoli per addestrare reti neurali profonde (NN) senza incontrare problemi. reti neurali profonde (NN) senza incorrere in un overfitting. Creato dai ricercatori dello Stanford Vision and Learning Lab, ImageNet ha risolto il problema della scarsità di dati. Si è guadagnato la ribalta mondiale grazie al ImageNet Large Scale Visual Recognition Challenge (ILSVRC), una gara annuale che si è svolta dal 2010 al 2017. competizione annuale che si è svolta dal 2010 al 2017.

Questo concorso è diventato il banco di prova di famose architetture. Nel 2012, l'architettura architettura AlexNet ha vinto il concorso con un margine significativo utilizzando una rete neurale convoluzionale (CNN), dimostrando la fattibilità dell'apprendimento profondo sulle unità di elaborazione grafica (GPU). unità di elaborazione grafica (GPU). Gli anni successivi hanno visto l'affermarsi di modelli più profondi e complessi come VGG e ResNet, che hanno hanno ulteriormente ridotto i tassi di errore e superato le prestazioni umane in compiti di classificazione specifici.

Apprendimento per trasferimento e preaddestramento

Sebbene ImageNet sia un set di dati, la sua utilità più pratica oggi risiede nel l 'apprendimento per trasferimento. L'addestramento di una rete neurale profonda da zero richiede enormi quantità di dati di dati di addestramento e di potenza di calcolo. Invece, gli sviluppatori utilizzano spesso modelli che sono già stati "pre-addestrati" su ImageNet.

Poiché ImageNet copre una vasta gamma di oltre 20.000 categorie, dalle razze di cani agli articoli per la casa, un modello addestrato su di esso apprende rappresentazioni di caratteristiche ricche e di alto livello. Queste caratteristiche apprese fungono da potente potente spina dorsale per i nuovi modelli. Mettendo a punto regolazione fine di questi pesi pre-addestrati, gli sviluppatori possono ottenere un'elevata accuratezza sui loro specifici set di dati personalizzati con un numero significativamente inferiore di immagini.

Applicazioni nel mondo reale

L'influenza di ImageNet si estende praticamente a tutti i settori che utilizzano l'intelligenza artificiale (AI). intelligenza artificiale (AI).

  1. Diagnostica medica: Nell'analisi delle immagini mediche analisi delle immagini mediche, i dati etichettati sono spesso scarsi e costosi da ottenere. I ricercatori utilizzano modelli pre-addestrati su ImageNet per identificare forme e trame generali, poi li perfezionano per rilevare tumori o fratture nelle radiografie. forme e texture generali, quindi li mettono a punto per detect tumori o fratture nelle radiografie. Questo approccio accelera lo sviluppo di IA salvavita negli strumenti sanitari.
  2. Sistemi di vendita al dettaglio intelligenti: I sistemi di cassa automatizzati si basano sull'identificazione di migliaia di prodotti. Piuttosto che raccogliere piuttosto che raccogliere milioni di immagini di scatole di cereali, gli ingegneri sfruttano i classificatori ImageNet per riconoscere le forme e i marchi di base dei prodotti. forme e i marchi di base dei prodotti. Ciò consente una rapida modelli per una gestione efficiente dell ' IA nella AI nella gestione dell'inventario al dettaglio.

Utilizzo dei modelli preaddestrati ImageNet

Gli sviluppatori possono facilmente accedere a modelli pre-addestrati su ImageNet utilizzando la libreria Ultralytics . Il seguente esempio mostra come caricare un modello YOLO11 modello di classificazione, che viene fornito con i pesi di ImageNet per impostazione predefinita, e utilizzarlo per predire la classe di un'immagine.

from ultralytics import YOLO

# Load a YOLO11 classification model pre-trained on ImageNet
model = YOLO("yolo11n-cls.pt")

# Run inference on an image (e.g., a picture of a goldfish or bus)
# The model will output the top ImageNet classes and probabilities
results = model("https://ultralytics.com/images/bus.jpg")

# Print the top predicted class name
print(f"Prediction: {results[0].names[results[0].probs.top1]}")

ImageNet vs. COCO

È importante distinguere ImageNet dal COCO (Common Objects in Context).

  • ImageNet è principalmente un benchmark per la classificazione delle immagini, dove l'obiettivo è quello di un'unica etichetta (ad esempio, "gatto soriano") a un'intera immagine. Le annotazioni si concentrano su su ciò che è presente nell'immagine.
  • COCO è il punto di riferimento standard per rilevamento di oggetti e segmentazione delle istanze. Contiene un numero inferiore di immagini totali, ma offre annotazioni complesse con con bounding box e maschere pixel-wise per più oggetti per immagine, concentrandosi sulla posizione degli oggetti.

Mentre ImageNet viene utilizzato per insegnare ai modelli "come vedere", i dataset come COCO vengono utilizzati per insegnare loro a localizzare e separare gli oggetti in scene complesse. e separare gli oggetti in scene complesse. Spesso, il codificatore di un modello viene pre-addestrato su ImageNet prima di essere addestrato su COCO per i compiti di rilevamento. COCO per i compiti di rilevamento.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora