Scopri come le ResNet rivoluzionano il deep learning risolvendo il problema dei gradienti che svaniscono, consentendo reti ultradeep per l'analisi delle immagini, l'elaborazione del linguaggio naturale (NLP) e altro ancora.
Le reti residue, ampiamente conosciute come ResNets, rappresentano un progresso cruciale nel campo dell'intelligenza artificiale (AI) e della intelligenza artificiale (AI) e della computer vision (CV). Introdotta nel 2015 dai ricercatori di Microsoft Research, questa architettura ha affrontato una sfida significativa nel apprendimento profondo (DL) noto come problema del gradiente che svanisce. Prima dell'avvento di ResNet, l'aumento della profondità di una rete neurale (NN) spesso si traduceva in una diminuzione dei rendimenti. in cui l'aggiunta di più livelli aumentava gli errori di addestramento. ResNet ha risolto questo problema introducendo le "connessioni connessioni", consentendo di addestrare con successo di reti con centinaia o addirittura migliaia di strati, mantenendo un'elevata precisione. precisione.
La caratteristica distintiva di una ResNet è il blocco residuo. In una rete neurale tradizionale Neurali convoluzionali (CNN) tradizionali, gli strati sono impilati in sequenza e ogni strato cerca di apprendere direttamente una mappatura dagli ingressi alle uscite. Tuttavia, quando le reti diventano più profonde, il segnale dei dati di ingresso può degradarsi prima di raggiungere la fine della rete.
ResNet introduce una "scorciatoia" o una connessione di salto che consente di aggiungere l'input di un livello direttamente al suo output. di uno strato direttamente alla sua uscita. Questo meccanismo dice essenzialmente alla rete di imparare il "residuo" (la differenza) tra l'ingresso e l'uscita ottimale, piuttosto che imparare l'intera trasformazione da zero. l'ingresso e l'uscita ottimale, piuttosto che imparare l'intera trasformazione da zero. Questa architettura preserva il flusso di informazioni e facilita una migliore estrazione delle caratteristiche, consentendo al modello di di catturare modelli complessi come texture e forme senza perdere i dati di input originali. È possibile leggere il testo originale Deep Residual Learning for Image Recognition per comprenderne le basi matematiche. basi matematiche.
ResNet è considerato un pilastro fondamentale per molti moderni sistemi di visione. La sua capacità di addestrare reti molto profonde consente la creazione di modelli altamente robusti che che possono ottenere buone prestazioni su set di dati su larga scala come ImageNet.
L'architettura è particolarmente significativa per l'apprendimento per trasferimento. Poiché i modelli ResNet pre-addestrati hanno appreso ricche mappe di caratteristiche da di dati, possono essere messi a punto per compiti specifici con insiemi di dati relativamente piccoli. Questa versatilità rende ResNet una scelta standard per compiti che vanno dalla classificazione delle immagini alla complessa analisi video.
La stabilità e la profondità fornite da ResNet ne hanno consentito l'utilizzo in ambienti critici e ad alto rischio.
È utile distinguere ResNet da altre architetture comuni che si trovano nelle librerie di apprendimento profondo come PyTorch o TensorFlow:
È possibile sfruttare facilmente i modelli ResNet per le attività di classificazione utilizzando l'opzione ultralytics Pacchetto Python . Questo
consente di accedere ai pesi pre-addestrati e di eseguire l'inferenza con un codice minimo.
from ultralytics import YOLO
# Load a pre-trained ResNet50 model capable of classifying images
model = YOLO("resnet50.pt") # Downloads the model weights automatically
# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Display the top classification result
print(f"Top class: {results[0].names[results[0].probs.top1]}")
Per coloro che sono interessati a comprendere la teoria più approfondita, i corsi come CS231n di Stanford forniscono eccellenti risorse accademiche sulle architetture delle CNN. Che si tratti di un semplice classificatore o di un sistema complesso per la produzione intelligente, la comprensione di ResNet è fondamentale. produzione intelligente, la comprensione di ResNet è è essenziale per padroneggiare la moderna computer vision.