ResNet-50 e il suo ruolo nella visione Ultralytics

L'analisi automatizzata delle immagini sta diventando sempre più comune in applicazioni come il rilevamento di auto in eccesso di velocità o l'analisi di immagini mediche. La tecnologia alla base di queste innovazioni è la computer vision o Vision AI. Si tratta di una branca dell'intelligenza artificiale (AI) che consente alle macchine di interpretare e comprendere immagini e video, proprio come fanno gli esseri umani.

Per costruire tali soluzioni di computer vision, gli sviluppatori si affidano a modelli di Vision AI in grado di apprendere da grandi quantità di dati visivi. Nel corso degli anni, i ricercatori hanno sviluppato modelli più nuovi e avanzati con prestazioni impressionanti in diverse attività di Vision AI come la classificazione delle immagini (assegnazione di etichette alle immagini), il rilevamento di oggetti (individuazione e identificazione di oggetti all'interno delle immagini) e la segmentazione delle istanze (rilevamento di oggetti e delineazione delle loro forme esatte).

Tuttavia, guardare indietro e capire i modelli precedenti può aiutare a dare un senso al modo in cui funzionano i sistemi di computer vision odierni. Ad esempio, un esempio chiave è ResNet-50, un modello influente che ha introdotto l'idea di connessioni di shortcut, percorsi semplici che aiutano il modello a imparare più velocemente e con maggiore precisione.

Questa innovazione ha reso possibile addestrare efficacemente reti neurali molto più profonde, portando a miglioramenti significativi nella classificazione delle immagini e plasmando la progettazione di molti modelli successivi. In questo articolo, esploreremo ResNet-50, come funziona e la sua rilevanza nell'evoluzione della computer vision. Iniziamo!

Cos'è ResNet-50?

ResNet-50 è un modello di computer vision basato su un tipo di rete neurale chiamata rete neurale convoluzionale (CNN). Le CNN sono progettate per aiutare i computer a comprendere le informazioni visive apprendendo gli schemi presenti nelle immagini, come bordi, colori o forme, e utilizzando tali schemi per riconoscere e classify gli oggetti.

Introdotto nel 2015 dai ricercatori di Microsoft Research, ResNet-50 è diventato rapidamente uno dei modelli di maggior impatto nel settore grazie alla sua accuratezza ed efficienza in compiti di riconoscimento di immagini su larga scala.

Una caratteristica fondamentale di ResNet-50 è l'uso di connessioni residuali, note anche come connessioni di shortcut. Si tratta di semplici percorsi che consentono al modello di saltare alcuni passaggi nel processo di apprendimento. In altre parole, invece di forzare il modello a far passare le informazioni attraverso ogni singolo livello, queste scorciatoie gli consentono di trasportare i dettagli importanti in avanti in modo più diretto. Questo rende l'apprendimento più veloce e affidabile.

__wf_reserved_inherit — Fig. 1. Uno sguardo alle connessioni residue nell'architettura ResNet.

‍

Questo design aiuta a risolvere un problema comune nel deep learning chiamato problema del gradiente che svanisce. Nei modelli molto profondi, informazioni importanti possono andare perse mentre si spostano attraverso molti livelli, rendendo difficile l'apprendimento per il modello.

Le connessioni residue aiutano a prevenire questo problema mantenendo un flusso di informazioni chiaro dall'inizio alla fine. Ecco perché il modello si chiama ResNet-50: ResNet sta per Rete Residuale e il “50” si riferisce al numero di livelli che utilizza per elaborare un'immagine.

Una panoramica del funzionamento di ResNet-50

ResNet-50 ha una struttura ben organizzata che consente al modello di essere profondo senza perdere informazioni importanti. Segue un modello semplice e ripetibile che mantiene l'efficienza pur consentendo prestazioni elevate.

Ecco uno sguardo più da vicino al funzionamento dell'architettura ResNet-50:

Estrazione di feature di base: Il modello inizia applicando un'operazione matematica chiamata convoluzione. Ciò comporta lo scorrimento di piccoli filtri (chiamati kernel) sull'immagine per produrre mappe di feature: nuove versioni dell'immagine che evidenziano pattern di base come bordi o texture. È così che il modello inizia a raccogliere informazioni visive utili.
‍
Apprendimento di caratteristiche complesse: Man mano che i dati si spostano attraverso la rete, la dimensione delle mappe delle caratteristiche diminuisce. Questo viene fatto attraverso tecniche come il pooling o l'utilizzo di filtri con passaggi più grandi (chiamati stride). Allo stesso tempo, la rete crea più mappe di caratteristiche, aiutandola a catturare modelli sempre più complessi, come forme, parti di oggetti o trame.
‍
Compressione ed espansione dei dati: Ogni fase comprime i dati, li elabora e poi li espande di nuovo. Questo aiuta il modello ad apprendere risparmiando memoria.
‍
Connessioni di shortcut: Si tratta di percorsi semplici che consentono alle informazioni di saltare avanti invece di passare attraverso ogni livello. Rendono l'apprendimento più stabile ed efficiente.
‍
Fare una previsione: Alla fine della rete, tutte le informazioni apprese vengono combinate e passate attraverso una funzione softmax. Questa restituisce una distribuzione di probabilità sulle possibili classi, indicando la confidenza del modello in ogni previsione, ad esempio, 90% gatto, 9% cane, 1% auto.

‍

Caratteristiche principali di ResNet-50

Anche se ResNet-50 è stato originariamente progettato per la classificazione delle immagini, il suo design flessibile lo ha reso utile in molte aree della visione artificiale. Diamo un'occhiata ad alcune delle caratteristiche che fanno risaltare ResNet-50.

Utilizzo di ResNet-50 per la classificazione delle immagini

ResNet-50 viene utilizzato principalmente per la classificazione delle immagini, dove l'obiettivo è assegnare un'etichetta a un'immagine. Ad esempio, data una foto, il modello può etichettarla come cane, gatto o aeroplano in base all'oggetto principale che vede.

Il suo design affidabile e la sua disponibilità nelle librerie di deep learning più diffuse, come PyTorch e TensorFlow , hanno reso ResNet-50 una scelta iniziale popolare per l'addestramento su grandi insiemi di immagini. Uno degli esempi più noti è ImageNetun'enorme raccolta di immagini etichettate utilizzata per valutare e confrontare i modelli di computer vision.

Mentre i modelli più recenti, come Ultralytics YOLO11lo superano, ResNet-50 è ancora comunemente usato come benchmark grazie al suo solido equilibrio tra accuratezza, velocità e semplicità.

‍

Rilevamento oggetti abilitato dai backbone ResNet-50

Mentre la classificazione delle immagini consiste nell'identificare l'oggetto principale in un'immagine, il rilevamento degli oggetti fa un passo avanti trovando ed etichettando più oggetti nella stessa immagine. Ad esempio, in un'immagine di una strada trafficata, un modello potrebbe dover detect auto, autobus e persone e capire dove si trova ciascuno di essi.

ResNet-50 viene utilizzato come backbone in alcuni di questi modelli. Ciò significa che gestisce la prima parte del lavoro: analizzare l'immagine ed estrarre dettagli importanti che descrivono cosa c'è dentro e dove. Questi dettagli vengono quindi passati alla parte successiva del modello, chiamata detection head, che prende le decisioni finali su quali oggetti sono nell'immagine e dove si trovano.

Modelli di rilevamento popolari come Faster R-CNN e DETR utilizzano ResNet-50 per questa fase di estrazione delle caratteristiche. Poiché svolge un buon lavoro nel catturare sia i dettagli fini che il layout generale di un'immagine, aiuta questi modelli a fare previsioni accurate, anche in scene complesse.

Transfer learning con ResNet-50

Un altro aspetto interessante del modello ResNet-50 è la sua capacità di supportare l 'apprendimento per trasferimento. Ciò significa che il modello, originariamente addestrato su un set di dati di grandi dimensioni come ImageNet per la classificazione delle immagini, può essere adattato a nuovi compiti con molti meno dati.

Invece di partire da zero, la maggior parte dei livelli del modello vengono riutilizzati e solo il livello di classificazione finale viene sostituito e riaddestrato per il nuovo compito. Ciò consente di risparmiare tempo ed è particolarmente utile quando i dati etichettati sono limitati.

Applicazioni di computer vision di ResNet-50

L'architettura di ResNet-50 lo ha reso utile per una vasta gamma di applicazioni di computer vision. È stato particolarmente importante nei primi giorni del deep learning, contribuendo a spostare la tecnologia Vision AI dalla ricerca all'uso nel mondo reale. Risolvendo sfide chiave, ha contribuito a spianare la strada ai modelli più avanzati che vediamo nelle applicazioni odierne.

Imaging medicale guidato da ResNet-50

ResNet-50 è stato uno dei primi modelli utilizzati nell'imaging medico basato sul deep learning. I ricercatori lo hanno utilizzato per identificare modelli di malattia in radiografie, risonanze magnetiche e altre scansioni diagnostiche. Ad esempio, ha aiutato a detect tumori e a classify immagini della retina diabetica per supportare la diagnosi in oftalmologia.

Sebbene oggi vengano utilizzati modelli più avanzati negli strumenti clinici, ResNet-50 ha svolto un ruolo chiave nella prima ricerca sull'AI medica. La sua facilità d'uso e il design modulare lo hanno reso una scelta adatta per la creazione di prototipi di sistemi diagnostici.

‍

Automazione industriale basata su ResNet-50

Allo stesso modo, ResNet-50 è stato applicato anche in ambito industriale. Ad esempio, nel settore manifatturiero, è stato utilizzato in sistemi di ricerca e pilota per detect difetti superficiali su materiali come acciaio, cemento e parti verniciate.

È stato anche testato in configurazioni per identificare fori di insetti, crepe o depositi che si formano durante la fusione o l'assemblaggio. ResNet-50 è adatto a questi compiti perché può individuare sottili differenze nella texture della superficie, un'abilità importante per il controllo qualità.

Mentre modelli più avanzati come YOLO11 sono ormai comunemente utilizzati nei sistemi di produzione, ResNet-50 svolge ancora un ruolo importante nella ricerca accademica e nel benchmarking, in particolare per i compiti di classificazione delle immagini.

‍

Vantaggi e limitazioni di ResNet-50

Ecco uno sguardo ad alcuni dei vantaggi di ResNet-50:

Solide prestazioni di base: ResNet-50 offre una solida precisione in un'ampia gamma di attività, rendendolo un benchmark affidabile sia nella ricerca che nei progetti applicati.
‍
Ben documentato e ampiamente studiato: La sua architettura è ben compresa e completamente documentata, il che rende la risoluzione dei problemi e l'apprendimento più facili per sviluppatori e ricercatori.
‍
Versatile in diversi ambiti: Dall'imaging medicale alla produzione, ResNet-50 è stato applicato con successo a una varietà di problemi del mondo reale, dimostrando la sua flessibilità.

Nel frattempo, ecco uno sguardo alle limitazioni di ResNet-50:

Elevato utilizzo di risorse: ResNet-50 richiede più memoria e potenza di calcolo rispetto ai modelli leggeri, il che può renderlo meno adatto per dispositivi mobili o applicazioni in tempo reale.
Overfitting su piccoli dataset: A causa della sua profondità e complessità, ResNet-50 può andare in overfitting se addestrato su dati limitati senza adeguate tecniche di regolarizzazione.
‍
Dimensione di input fissa: ResNet-50 di solito si aspetta che le immagini abbiano una dimensione specifica, come 224×224 pixel, quindi le immagini spesso devono essere ridimensionate o ritagliate, il che a volte può rimuovere dettagli importanti.

Punti chiave

ResNet-50 ha dimostrato che reti molto profonde potevano essere addestrate efficacemente pur offrendo prestazioni elevate nelle attività visive. La sua architettura ha offerto un framework chiaro e pratico per la costruzione di modelli più profondi che funzionassero in modo affidabile.

Dopo il suo rilascio, i ricercatori hanno ampliato il design, creando versioni più profonde come ResNet-101 e ResNet-152. Nel complesso, ResNet-50 è un modello chiave che ha contribuito a plasmare il modo in cui il deep learning viene utilizzato oggi nella computer vision.

Unisciti alla nostra community in crescita! Esplora il nostro repository GitHub per saperne di più sull'IA. Sei pronto per iniziare i tuoi progetti di computer vision? Dai un'occhiata alle nostre opzioni di licenza. Scopri l'IA in agricoltura e la Vision AI nel settore sanitario visitando le nostre pagine delle soluzioni!

Cos'è ResNet-50 e qual è la sua rilevanza nella computer vision?

Cos'è ResNet-50?

Una panoramica del funzionamento di ResNet-50

Caratteristiche principali di ResNet-50

Utilizzo di ResNet-50 per la classificazione delle immagini

Rilevamento oggetti abilitato dai backbone ResNet-50

Transfer learning con ResNet-50

Applicazioni di computer vision di ResNet-50

Imaging medicale guidato da ResNet-50

Automazione industriale basata su ResNet-50

Vantaggi e limitazioni di ResNet-50

Punti chiave

Leggi di più in questa categoria

Che cos'è la distillazione dei set di dati? Una rapida panoramica

Apprendimento auto-supervisionato per il denoising: un'analisi dettagliata passo dopo passo

Che cos'è la corrispondenza delle immagini nella Vision AI? Una rapida introduzione

Costruiamo insieme il futuro
dell'AI!

Cos'è ResNet-50 e qual è la sua rilevanza nella computer vision?

Cos'è ResNet-50?

Una panoramica del funzionamento di ResNet-50

Caratteristiche principali di ResNet-50

Utilizzo di ResNet-50 per la classificazione delle immagini

Rilevamento oggetti abilitato dai backbone ResNet-50

Transfer learning con ResNet-50

Applicazioni di computer vision di ResNet-50

Imaging medicale guidato da ResNet-50

Automazione industriale basata su ResNet-50

Vantaggi e limitazioni di ResNet-50

Punti chiave

Leggi di più in questa categoria

Che cos'è la distillazione dei set di dati? Una rapida panoramica

Apprendimento auto-supervisionato per il denoising: un'analisi dettagliata passo dopo passo

Che cos'è la corrispondenza delle immagini nella Vision AI? Una rapida introduzione

Costruiamo insieme il futuro dell'AI!

Costruiamo insieme il futuro
dell'AI!