Scopri come le ResNet rivoluzionano il deep learning risolvendo il problema dei gradienti che svaniscono, consentendo reti ultradeep per l'analisi delle immagini, l'elaborazione del linguaggio naturale (NLP) e altro ancora.
Le reti residue, comunemente denominate ResNet, rappresentano un'architettura rivoluzionaria nel deep learning che ha risolto un problema fondamentale nell'addestramento di reti neurali molto profonde. Prima della loro introduzione da parte dei ricercatori Microsoft Research nel 2015, l'aggiunta di ulteriori livelli a una rete neurale (NN) comportava spesso una diminuzione della precisione a causa del problema del gradiente svanente, in cui i segnali si attenuavano mentre attraversavano livelli complessi. ResNet ha introdotto un'intelligente modifica strutturale chiamata "connessioni skip" o "connessioni shortcut", che permettono alle informazioni di bypassare determinati livelli e fluire direttamente a quelli successivi. Questa innovazione ha reso possibile l'addestramento di reti con centinaia di livelli, migliorando significativamente le capacità dei sistemi di visione artificiale (CV).
Nei modelli tradizionali di deep learning (DL), gli strati sono impilati in sequenza. Man mano che le reti diventano più profonde per catturare caratteristiche più complesse, diventano più difficili da addestrare. Questa difficoltà deriva dal fatto che i gradienti, ovvero i segnali utilizzati per aggiornare i pesi del modello durante l'addestramento, possono diventare infinitesimali mentre si propagano attraverso molti strati, un fenomeno noto come problema del gradiente svanente.
ResNet risolve questo problema ristrutturando la rete in blocchi residui. Invece di apprendere una mappatura diretta dall' input all'output, ogni blocco apprende la differenza (o residuo) tra l'input e l'output desiderato. La connessione skip aggiunge l'input originale direttamente all'output del blocco. Questa semplice aggiunta crea un percorso diretto per il flusso dei gradienti all'indietro durante la retropropagazione, garantendo che anche le reti molto profonde possano apprendere in modo efficace senza degrado delle prestazioni. Per una comprensione teorica più approfondita , è possibile consultare il documento originale, Deep Residual Learning for Image Recognition.
Il successo di ResNet risiede nel suo design modulare, che ha influenzato molte architetture moderne.
La robustezza di ResNet lo ha reso una scelta standard per varie applicazioni ad alto impatto.
Sebbene architetture più recenti come il Vision Transformer (ViT) abbiano guadagnato popolarità, ResNet rimane un punto di riferimento grazie al suo equilibrio tra velocità e precisione. È ampiamente utilizzato nel transfer learning, dove un modello pre-addestrato su un enorme set di dati come ImageNet viene ottimizzato per un compito specifico con dati limitati.
I moderni rilevatori di oggetti, compreso il sofisticato YOLO26, spesso incorporano concetti evoluti da ResNet, come le connessioni residue all'interno delle loro strutture portanti, per facilitare l'estrazione efficiente delle caratteristiche su più scale.
È possibile utilizzare facilmente un modello ResNet per
classificazione delle immagini utilizzando il
ultralytics Python . Questo esempio mostra come caricare un modello ResNet50 pre-addestrato per classify un'
immagine.
from ultralytics import YOLO
# Load a pre-trained ResNet50 model
model = YOLO("resnet50.pt")
# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Print the top predicted class
print(f"Prediction: {results[0].names[results[0].probs.top1]}")
È utile distinguere ResNet dalle altre architetture per comprenderne il contributo unico.
Per una visione più ampia di come questi modelli si inseriscono nel panorama della visione artificiale, puoi consultare la nostra guida sulle architetture di rilevamento degli oggetti o imparare ad addestrare i tuoi modelli su set di dati personalizzati.