Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Reti Residuali (ResNet)

Scopri come le ResNet rivoluzionano il deep learning risolvendo il problema dei gradienti che svaniscono, consentendo reti ultradeep per l'analisi delle immagini, l'elaborazione del linguaggio naturale (NLP) e altro ancora.

Le reti residue, ampiamente conosciute come ResNets, rappresentano un progresso cruciale nel campo dell'intelligenza artificiale (AI) e della intelligenza artificiale (AI) e della computer vision (CV). Introdotta nel 2015 dai ricercatori di Microsoft Research, questa architettura ha affrontato una sfida significativa nel apprendimento profondo (DL) noto come problema del gradiente che svanisce. Prima dell'avvento di ResNet, l'aumento della profondità di una rete neurale (NN) spesso si traduceva in una diminuzione dei rendimenti. in cui l'aggiunta di più livelli aumentava gli errori di addestramento. ResNet ha risolto questo problema introducendo le "connessioni connessioni", consentendo di addestrare con successo di reti con centinaia o addirittura migliaia di strati, mantenendo un'elevata precisione. precisione.

L'innovazione di base: Blocchi residui

La caratteristica distintiva di una ResNet è il blocco residuo. In una rete neurale tradizionale Neurali convoluzionali (CNN) tradizionali, gli strati sono impilati in sequenza e ogni strato cerca di apprendere direttamente una mappatura dagli ingressi alle uscite. Tuttavia, quando le reti diventano più profonde, il segnale dei dati di ingresso può degradarsi prima di raggiungere la fine della rete.

ResNet introduce una "scorciatoia" o una connessione di salto che consente di aggiungere l'input di un livello direttamente al suo output. di uno strato direttamente alla sua uscita. Questo meccanismo dice essenzialmente alla rete di imparare il "residuo" (la differenza) tra l'ingresso e l'uscita ottimale, piuttosto che imparare l'intera trasformazione da zero. l'ingresso e l'uscita ottimale, piuttosto che imparare l'intera trasformazione da zero. Questa architettura preserva il flusso di informazioni e facilita una migliore estrazione delle caratteristiche, consentendo al modello di di catturare modelli complessi come texture e forme senza perdere i dati di input originali. È possibile leggere il testo originale Deep Residual Learning for Image Recognition per comprenderne le basi matematiche. basi matematiche.

Perché ResNet è importante nell'apprendimento automatico

ResNet è considerato un pilastro fondamentale per molti moderni sistemi di visione. La sua capacità di addestrare reti molto profonde consente la creazione di modelli altamente robusti che che possono ottenere buone prestazioni su set di dati su larga scala come ImageNet.

L'architettura è particolarmente significativa per l'apprendimento per trasferimento. Poiché i modelli ResNet pre-addestrati hanno appreso ricche mappe di caratteristiche da di dati, possono essere messi a punto per compiti specifici con insiemi di dati relativamente piccoli. Questa versatilità rende ResNet una scelta standard per compiti che vanno dalla classificazione delle immagini alla complessa analisi video.

Applicazioni nel mondo reale

La stabilità e la profondità fornite da ResNet ne hanno consentito l'utilizzo in ambienti critici e ad alto rischio.

  • Diagnostica medica: Nel campo dell'IA in ambito sanitario, le architetture ResNet sono AI in ambito sanitario, le architetture ResNet sono spesso utilizzate per l'analisi delle immagini mediche. Ad esempio, ricercatori utilizzano modelli ResNet profondi per analizzare scansioni di risonanza magnetica o radiografie per per l'individuazione dei tumori, dove il modello deve identificare minime anomalie nelle strutture tissutali che potrebbero essere ignorate da reti più superficiali.
  • Guida autonoma: I veicoli autonomi si affidano a sistemi di sistemi di percezione in tempo reale per navigare in sicurezza. Le varianti di ResNet servono spesso come estrattore di caratteristiche per i sistemi di sistemi di rilevamento degli oggetti che identificano pedoni, segnali stradali e altri veicoli. La profondità della rete garantisce che l'auto sia in grado di riconoscere oggetti in condizioni di luce e meteo variabili, un componente chiave dell'IA nella sicurezza automobilistica. AI nella sicurezza automobilistica.

ResNet vs. Altre Architetture

È utile distinguere ResNet da altre architetture comuni che si trovano nelle librerie di apprendimento profondo come PyTorch o TensorFlow:

  • ResNet vs. VGG: le reti VGG (Visual Geometry Group) erano famose per la loro semplicità, in quanto utilizzavano solo convoluzioni 3x3. Tuttavia, i modelli VGG sono pesanti dal punto di vista computazionale e faticano ad addestrarsi efficacemente oltre i 19 strati. ResNet utilizza connessioni saltate per andare molto più in profondità (ad esempio, 50, 101 o 152 strati) con una latenza di inferenza inferiore rispetto alla profondità. latenza di inferenza inferiore rispetto alla loro profondità.
  • ResNet vs. YOLO11: mentre ResNet è principalmente una struttura portante del classificatore, YOLO11 è un rilevatore di oggetti all'avanguardia. Tuttavia, moderni, come YOLO11 , incorporano concetti architettonici evoluti da ResNet, come le connessioni parziali a più stadi, per garantire un flusso di gradiente efficiente durante l'addestramento. per garantire un flusso di gradienti efficiente durante l'addestramento.

Implementazione con Ultralytics

È possibile sfruttare facilmente i modelli ResNet per le attività di classificazione utilizzando l'opzione ultralytics Pacchetto Python . Questo consente di accedere ai pesi pre-addestrati e di eseguire l'inferenza con un codice minimo.

from ultralytics import YOLO

# Load a pre-trained ResNet50 model capable of classifying images
model = YOLO("resnet50.pt")  # Downloads the model weights automatically

# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")

# Display the top classification result
print(f"Top class: {results[0].names[results[0].probs.top1]}")

Per coloro che sono interessati a comprendere la teoria più approfondita, i corsi come CS231n di Stanford forniscono eccellenti risorse accademiche sulle architetture delle CNN. Che si tratti di un semplice classificatore o di un sistema complesso per la produzione intelligente, la comprensione di ResNet è fondamentale. produzione intelligente, la comprensione di ResNet è è essenziale per padroneggiare la moderna computer vision.

Unitevi alla comunità di Ultralytics

Entra nel futuro dell'AI. Connettiti, collabora e cresci con innovatori globali

Iscriviti ora