Mask R-CNN Spiegato: Guida, Usi & YOLO

Innovazioni come i robot nei magazzini, le auto a guida autonoma che si muovono in sicurezza per le strade trafficate, i droni che controllano i raccolti e i sistemi di intelligenza artificiale che ispezionano i prodotti nelle fabbriche stanno diventando sempre più comuni con l'aumento dell'adozione dell'IA. Una tecnologia chiave alla base di queste innovazioni è la computer vision, una branca dell'IA che consente alle macchine di comprendere e interpretare i dati visivi.

Ad esempio, il rilevamento di oggetti è un'attività di computer vision che aiuta a identificare e localizzare oggetti nelle immagini utilizzando i bounding box. Sebbene i bounding box offrano informazioni utili, forniscono solo una stima approssimativa della posizione di un oggetto e non possono catturare la sua forma o i suoi confini esatti. Questo li rende meno efficaci nelle applicazioni che richiedono un'identificazione precisa.

Per risolvere questo problema, i ricercatori hanno sviluppato modelli di segmentazione che catturano i contorni esatti degli oggetti, fornendo dettagli a livello di pixel per un rilevamento e un'analisi più accurati.

Mask R-CNN è uno di questi modelli. Introdotto nel 2017 da Facebook AI Research (FAIR), si basa su modelli precedenti come R-CNN, Fast R-CNN e Faster R-CNN. In quanto importante pietra miliare nella storia della computer vision, Mask R-CNN ha aperto la strada a modelli più avanzati, come Ultralytics YOLO11.

In questo articolo, esploreremo cos'è Mask R-CNN, come funziona, le sue applicazioni e quali miglioramenti sono stati apportati successivamente, portando a YOLO11.

Una panoramica di Mask R-CNN

Mask R-CNN, che sta per Mask Region-based Convolutional Neural Network, è un modello di deep learning progettato per attività di computer vision come il rilevamento di oggetti e la segmentazione di istanze.

La segmentazione di istanza va oltre il tradizionale object detection non solo identificando gli oggetti in un'immagine, ma anche delineando accuratamente ognuno di essi. Assegna un'etichetta univoca a ogni oggetto rilevato e cattura la sua forma esatta a livello di pixel. Questo approccio dettagliato consente di distinguere chiaramente tra oggetti sovrapposti e di gestire accuratamente forme complesse.

Mask R-CNN si basa su Faster R-CNN, che rileva ed etichetta gli oggetti ma non ne definisce le forme esatte. Mask R-CNN migliora questo aspetto identificando i pixel esatti che compongono ciascun oggetto, consentendo un'analisi delle immagini molto più dettagliata e precisa.

Fig. 1. Confronto tra object detection e instance segmentation.

‍

Uno sguardo all'architettura di Mask R-CNN e al suo funzionamento

Mask R-CNN adotta un approccio graduale per rilevare e segmentare gli oggetti in modo accurato. Inizia estraendo le caratteristiche chiave utilizzando una rete neurale profonda (un modello multistrato che apprende dai dati), quindi identifica le potenziali aree degli oggetti con una rete di proposta di regione (un componente che suggerisce le regioni probabili degli oggetti) e infine perfeziona queste aree creando maschere di segmentazione dettagliate (contorni precisi degli oggetti) che catturano la forma esatta di ciascun oggetto.

Successivamente, esamineremo ogni passaggio per avere un'idea più chiara di come funziona Mask R-CNN.

Figura 2. Panoramica dell'architettura della Mask R-CNN (Fonte: researchgate.net).

‍

A partire dall'estrazione delle feature

Il primo passo nell'architettura di Mask R-CNN è scomporre l'immagine nelle sue parti chiave in modo che il modello possa capire cosa c'è dentro. Pensate a quando guardate una foto e notate naturalmente dettagli come forme, colori e bordi. Il modello fa qualcosa di simile usando una rete neurale profonda chiamata "backbone" (spesso ResNet-50 o ResNet-101), che agisce come i suoi occhi per scansionare l'immagine e cogliere i dettagli chiave.

Poiché gli oggetti nelle immagini possono essere molto piccoli o molto grandi, Mask R-CNN utilizza una Feature Pyramid Network. È come avere diverse lenti d'ingrandimento che consentono al modello di vedere sia i dettagli più fini sia il quadro generale, garantendo che gli oggetti di tutte le dimensioni vengano notati.

Una volta che queste importanti caratteristiche sono state estratte, il modello passa quindi a localizzare i potenziali oggetti nell'immagine, preparando il terreno per ulteriori analisi.

Suggerimento di potenziali aree nell'immagine con oggetti

Dopo che l'immagine è stata elaborata per le caratteristiche chiave, subentra la Region Proposal Network. Questa parte del modello esamina l'immagine e suggerisce aree che probabilmente contengono oggetti.

Lo fa generando molteplici posizioni possibili per gli oggetti, chiamate ancore. La rete valuta quindi queste ancore e seleziona quelle più promettenti per ulteriori analisi. In questo modo, il modello si concentra solo sulle aree che hanno maggiori probabilità di essere interessanti, anziché controllare ogni singolo punto nell'immagine.

Fig. 3. Un esempio di Region Proposal Network.

‍

Miglioramento delle feature estratte

Una volta identificate le aree chiave, il passo successivo è affinare i dettagli estratti da queste regioni. I modelli precedenti utilizzavano un metodo chiamato ROI Pooling (Region of Interest Pooling) per acquisire le caratteristiche da ciascuna area, ma questa tecnica a volte portava a lievi disallineamenti durante il ridimensionamento delle regioni, rendendola meno efficace, soprattutto per oggetti più piccoli o sovrapposti.

Mask R-CNN migliora questo aspetto utilizzando una tecnica denominata ROI Align (Region of Interest Align). Invece di arrotondare le coordinate come fa ROI Pooling, ROI Align utilizza l'interpolazione bilineare per stimare i valori dei pixel in modo più preciso. L'interpolazione bilineare è un metodo che calcola un nuovo valore di pixel facendo la media dei valori dei suoi quattro vicini più prossimi, il che crea transizioni più fluide. Questo mantiene le caratteristiche correttamente allineate con l'immagine originale, con conseguente rilevamento e segmentazione degli oggetti più accurati.

Ad esempio, in una partita di calcio, due giocatori vicini tra loro potrebbero essere scambiati per un unico giocatore a causa della sovrapposizione dei loro bounding box. ROI Align aiuta a distinguerli mantenendo separate le loro forme.

‍

Classificazione degli oggetti e previsione delle loro maschere

Una volta che ROI Align elabora l'immagine, il passo successivo è classificare gli oggetti e mettere a punto la loro posizione. Il modello esamina ogni regione estratta e decide quale oggetto contiene. Assegna un punteggio di probabilità a diverse categorie e sceglie la corrispondenza migliore.

Allo stesso tempo, regola i riquadri di delimitazione per adattarsi meglio agli oggetti. Le caselle iniziali potrebbero non essere posizionate idealmente, quindi questo aiuta a migliorare l'accuratezza assicurandosi che ogni casella circondi strettamente l'oggetto rilevato.

Infine, Mask R-CNN compie un ulteriore passo avanti: genera una maschera di segmentazione dettagliata per ogni oggetto in parallelo.

Mask R-CNN e le sue applicazioni in tempo reale

Quando questo modello è uscito, è stato accolto con grande entusiasmo dalla comunità dell'IA ed è stato presto utilizzato in varie applicazioni. La sua capacità di rilevare e segmentare gli oggetti in tempo reale lo ha reso un punto di svolta in diversi settori.

Ad esempio, il tracciamento di animali in via di estinzione in natura è un compito impegnativo. Molte specie si muovono attraverso fitte foreste, rendendo difficile per i conservazionisti tenerne traccia. I metodi tradizionali utilizzano trappole fotografiche, droni e immagini satellitari, ma l'ordinamento manuale di tutti questi dati richiede molto tempo. Identificazioni errate e avvistamenti mancati possono rallentare gli sforzi di conservazione.

Riconoscendo caratteristiche uniche come le strisce delle tigri, le macchie delle giraffe o la forma delle orecchie di un elefante, Mask R-CNN è in grado di rilevare e segmentare gli animali in immagini e video con maggiore accuratezza. Anche quando gli animali sono parzialmente nascosti dagli alberi o si trovano vicini tra loro, il modello può separarli e identificare ciascuno individualmente, rendendo il monitoraggio della fauna selvatica più rapido e affidabile.

Fig. 5. Rilevamento e segmentazione di animali tramite Mask R-CNN.

‍

Limitazioni di Mask R-CNN

Nonostante il suo significato storico nel rilevamento e nella segmentazione degli oggetti, Mask R-CNN presenta anche alcuni inconvenienti chiave. Ecco alcune sfide relative a Mask R-CNN:

Elevata domanda computazionale: Si basa su potenti GPU, il che può rendere costoso l'esecuzione e lento l'elaborazione di grandi quantità di dati.
Velocità di elaborazione più lenta: Il suo processo multi-stadio lo rende più lento rispetto ai modelli in tempo reale più veloci come YOLO, il che potrebbe non essere l'ideale per attività che richiedono tempi di risposta rapidi.
Dipendenza da dati di alta qualità: Il modello funziona meglio con immagini chiare e ben etichettate. Immagini sfocate o scarsamente illuminate possono ridurne significativamente l'accuratezza.
‍
Implementazione complessa: L'architettura multi-stadio può essere difficile da configurare e ottimizzare, specialmente quando si ha a che fare con grandi set di dati o risorse limitate.

Da Mask R-CNN a Ultralytics YOLO11

Mask R-CNN era ottimo per le attività di segmentazione, ma molti settori stavano cercando di adottare la computer vision dando priorità alla velocità e alle prestazioni in tempo reale. Questo requisito ha portato i ricercatori a sviluppare modelli a stadio singolo che rilevano gli oggetti in un unico passaggio, migliorando notevolmente l'efficienza.

A differenza del processo multi-step di Mask R-CNN, i modelli di computer vision one-stage come YOLO (You Only Look Once) si concentrano su attività di computer vision in tempo reale. Invece di gestire separatamente il rilevamento e la segmentazione, i modelli YOLO possono analizzare un'immagine in un solo passaggio. Questo lo rende ideale per applicazioni come la guida autonoma, la sanità, la produzione e la robotica, dove il processo decisionale rapido è fondamentale.

In particolare, YOLO11 fa un ulteriore passo avanti essendo sia veloce che preciso. Utilizza il 22% in meno di parametri rispetto a YOLOv8m, ma raggiunge comunque una precisione media superiore (mAP) sul dataset COCO, il che significa che rileva gli oggetti in modo più preciso. La sua maggiore velocità di elaborazione lo rende una buona scelta per le applicazioni in tempo reale in cui ogni millisecondo conta.

Fig. 6. Prestazioni di YOLO11 rispetto ad altri modelli.

‍

Punti chiave

Ripensando alla storia della computer vision, Mask R-CNN è riconosciuto come una svolta importante nel rilevamento e nella segmentazione degli oggetti. Fornisce risultati molto precisi anche in contesti complessi, grazie al suo processo dettagliato in più fasi.

Tuttavia, questo stesso processo lo rende più lento rispetto ai modelli in tempo reale come YOLO. Con la crescente necessità di velocità ed efficienza, molte applicazioni utilizzano ora modelli a singola fase come Ultralytics YOLO11, che offrono un rilevamento degli oggetti rapido e preciso. Sebbene Mask R-CNN sia importante per comprendere l'evoluzione della computer vision, la tendenza verso soluzioni in tempo reale evidenzia la crescente domanda di soluzioni di computer vision più rapide ed efficienti.

Unisciti alla nostra community in crescita! Esplora il nostro repository GitHub per saperne di più sull'IA. Sei pronto per iniziare i tuoi progetti di computer vision? Dai un'occhiata alle nostre opzioni di licenza. Scopri l'IA in agricoltura e la Vision AI nel settore sanitario visitando le nostre pagine delle soluzioni!

Cos'è Mask R-CNN e come funziona?

Una panoramica di Mask R-CNN