Scopri la potenza delle reti residue (ResNet). Scopri come le connessioni skip risolvono il problema del gradiente svanente per consentire l'apprendimento profondo nella visione artificiale.
Le reti residue, comunemente note come ResNet, sono un tipo specifico di architettura di rete neurale artificiale (ANN) progettata per consentire l'addestramento di reti estremamente profonde. Introdotta dai ricercatori di Microsoft 2015, ResNet ha risolto un collo di bottiglia critico nel deep learning noto come problema del gradiente svanente. Nelle reti tradizionali , l'aggiunta di più livelli spesso portava alla saturazione o al degrado delle prestazioni perché il segnale necessario per aggiornare i pesi del modello si attenuava man mano che si propagava all'indietro attraverso i livelli. ResNet ha introdotto le "connessioni skip" (o connessioni residue), che consentono ai dati di bypassare uno o più livelli e fluire direttamente alle fasi di elaborazione successive. Questa innovazione ha dimostrato che le reti più profonde potevano essere addestrate in modo efficace, portando a significative innovazioni nella visione artificiale (CV) e diventando un concetto fondamentale per le architetture moderne.
La caratteristica distintiva di una ResNet è il "blocco residuo". In una rete neurale convoluzionale (CNN) standard, ogni strato cerca di apprendere una mappatura diretta dall'input all'output. Man mano che le reti diventano più profonde, l'apprendimento di questa mappatura diretta diventa sempre più difficile.
ResNet cambia questo approccio formulando l'obiettivo di apprendimento in modo diverso. Invece di sperare che ogni stack di livelli apprendano l'intera mappatura sottostante, il blocco residuo costringe i livelli ad apprendere il "residuo", ovvero la differenza tra l'input e l'output desiderato. L'input originale viene quindi aggiunto nuovamente al residuo appreso attraverso una connessione skip. Questo cambiamento strutturale implica che se una mappatura identitaria (che passa l'input invariato) è ottimale, la rete può facilmente imparare a spingere i residui a zero. Ciò rende i modelli di deep learning (DL) molto più facili da ottimizzare, consentendo loro di scalare da decine a centinaia o addirittura migliaia di livelli.
Sin dal suo inizio, diverse varianti di ResNet sono diventate benchmark standard nella comunità dell'intelligenza artificiale.
La robustezza delle architetture ResNet le ha rese la scelta ideale per un'ampia gamma di attività visive.
È utile distinguere ResNet dalle altre architetture più diffuse per comprenderne l'utilità specifica.
Le moderne librerie di deep learning come PyTorch l'accesso ai modelli ResNet pre-addestrati. Questi modelli sono preziosissimi per il transfer learning, dove un modello addestrato su un grande set di dati come ImageNet viene messo a punto per un compito specifico.
Il seguente Python mostra come caricare un modello ResNet-50 pre-addestrato utilizzando
torchvision (parte PyTorch ) ed eseguire un semplice passaggio in avanti. Mentre gli utenti del
Piattaforma Ultralytics potrebbe usare spesso
YOLO26 Per il rilevamento, comprendere i concetti fondamentali alla base
come ResNet è fondamentale per una personalizzazione avanzata.
import torch
import torchvision.models as models
# Load a pre-trained ResNet-50 model
resnet50 = models.resnet50(weights=models.ResNet50_Weights.DEFAULT)
resnet50.eval() # Set model to evaluation mode
# Create a dummy input tensor (batch_size, channels, height, width)
input_tensor = torch.randn(1, 3, 224, 224)
# Perform a forward pass to get predictions
with torch.no_grad():
output = resnet50(input_tensor)
print(f"Output shape: {output.shape}") # Expect [1, 1000] for ImageNet classes
Sebbene le architetture più recenti come YOLO26 utilizzino strutture altamente ottimizzate per garantire la massima velocità e precisione, i principi dell'apprendimento residuale rimangono onnipresenti. Il concetto di connessioni skip è ormai un componente standard in molte reti avanzate, compresi i trasformatori utilizzati nell' elaborazione del linguaggio naturale (NLP) e negli ultimi modelli di rilevamento degli oggetti. Consentendo alle informazioni di fluire più liberamente attraverso la rete, ResNet ha aperto la strada a modelli profondi e complessi che alimentano l'intelligenza artificiale odierna.