Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Qu'est-ce que Mask R-CNN et comment ça marche ?

Abirami Vina

4 min de lecture

21 mars 2025

Découvrez comment Mask R-CNN peut être utilisé pour segmenter précisément les objets dans les images et les vidéos pour diverses applications dans différents secteurs.

Les innovations telles que les robots dans les entrepôts, les voitures autonomes se déplaçant en toute sécurité dans les rues animées, les drones vérifiant les récoltes et les systèmes d'IA inspectant les produits dans les usines deviennent de plus en plus courantes à mesure que l'adoption de l'IA augmente. Une technologie clé à l'origine de ces innovations est la vision par ordinateur, une branche de l'IA qui permet aux machines de comprendre et d'interpréter les données visuelles.

Par exemple, la détection d'objets est une tâche de vision par ordinateur qui aide à identifier et à localiser les objets dans les images à l'aide de boîtes englobantes. Bien que les boîtes englobantes offrent des informations utiles, elles ne fournissent qu'une estimation approximative de la position d'un objet et ne peuvent pas capturer sa forme ou ses limites exactes. Cela les rend moins efficaces dans les applications qui nécessitent une identification précise.

Pour résoudre ce problème, les chercheurs ont développé des modèles de segmentation qui capturent les contours exacts des objets, fournissant des détails au niveau des pixels pour une détection et une analyse plus précises.

Mask R-CNN est l'un de ces modèles. Introduit en 2017 par Facebook AI Research (FAIR), il s'appuie sur des modèles antérieurs tels que R-CNN, Fast R-CNN et Faster R-CNN. En tant qu'étape importante dans l'histoire de la vision par ordinateur, Mask R-CNN a ouvert la voie à des modèles plus avancés, tels que Ultralytics YOLO11.

Dans cet article, nous allons explorer ce qu'est Mask R-CNN, comment il fonctionne, ses applications et les améliorations qui ont suivi, menant à YOLO11.

Un aperçu de Mask R-CNN

Mask R-CNN, qui signifie Mask Region-based Convolutional Neural Network (réseau neuronal convolutif basé sur les régions avec masques), est un modèle d'apprentissage profond conçu pour les tâches de vision par ordinateur telles que la détection d'objets et la segmentation d'instances. 

La segmentation d'instances va au-delà de la détection d'objets traditionnelle en identifiant non seulement les objets dans une image, mais aussi en délimitant avec précision chacun d'eux. Elle attribue une étiquette unique à chaque objet détecté et capture sa forme exacte au niveau du pixel. Cette approche détaillée permet de distinguer clairement les objets qui se chevauchent et de traiter avec précision les formes complexes.

Mask R-CNN s'appuie sur Faster R-CNN, qui détecte et étiquette les objets, mais ne définit pas leurs formes exactes. Mask R-CNN améliore ce point en identifiant les pixels exacts qui composent chaque objet, ce qui permet une analyse d'image beaucoup plus détaillée et précise.

Fig 1. Comparaison de la détection d'objets et de la segmentation d'instance.

Un aperçu de l'architecture de Mask R-CNN et de son fonctionnement

Mask R-CNN adopte une approche étape par étape pour détecter et segmenter les objets avec précision. Il commence par extraire les caractéristiques clés à l'aide d'un réseau neuronal profond (un modèle multicouche qui apprend à partir des données), puis identifie les zones d'objets potentielles avec un réseau de proposition de régions (un composant qui suggère les régions d'objets probables), et enfin affine ces zones en créant des masques de segmentation détaillés (contours précis des objets) qui capturent la forme exacte de chaque objet.

Ensuite, nous allons passer en revue chaque étape pour mieux comprendre comment fonctionne Mask R-CNN.

Fig. 2. Vue d'ensemble de l'architecture du Mask R-CNN (Source : researchgate.net).

En commençant par l'extraction des caractéristiques

La première étape de l'architecture de Mask R-CNN consiste à décomposer l'image en ses parties clés afin que le modèle puisse comprendre ce qu'elle contient. C'est comme lorsque vous regardez une photo et que vous remarquez naturellement des détails tels que les formes, les couleurs et les bords. Le modèle fait quelque chose de similaire en utilisant un réseau neuronal profond appelé "backbone" (souvent ResNet-50 ou ResNet-101), qui agit comme ses yeux pour scanner l'image et relever les détails clés.

Étant donné que les objets dans les images peuvent être très petits ou très grands, Mask R-CNN utilise un réseau de pyramides de caractéristiques (Feature Pyramid Network). C'est comme avoir différentes loupes qui permettent au modèle de voir à la fois les détails fins et l'ensemble, garantissant ainsi que les objets de toutes tailles sont remarqués.

Une fois ces caractéristiques importantes extraites, le modèle passe à la localisation des objets potentiels dans l'image, préparant ainsi le terrain pour une analyse plus approfondie.

Suggérer des zones potentielles dans l'image contenant des objets

Une fois que l'image a été traitée pour en extraire les caractéristiques clés, le réseau de proposition de régions prend le relais. Cette partie du modèle examine l'image et suggère les zones susceptibles de contenir des objets.

Il le fait en générant plusieurs emplacements d'objets possibles appelés ancres. Le réseau évalue ensuite ces ancres et sélectionne les plus prometteuses pour une analyse plus approfondie. De cette façon, le modèle se concentre uniquement sur les zones les plus susceptibles d'être intéressantes, plutôt que de vérifier chaque point de l'image.

Fig 3. Un exemple de réseau de proposition de régions.

Amélioration des caractéristiques extraites 

Une fois les zones clés identifiées, l'étape suivante consiste à affiner les détails extraits de ces régions. Les modèles précédents utilisaient une méthode appelée ROI Pooling (Region of Interest Pooling) pour saisir les caractéristiques de chaque zone, mais cette technique entraînait parfois de légers défauts d'alignement lors du redimensionnement des régions, ce qui la rendait moins efficace, en particulier pour les objets plus petits ou se chevauchant.

Mask R-CNN améliore ce point en utilisant une technique appelée ROI Align (Region of Interest Align). Au lieu d'arrondir les coordonnées comme le fait ROI Pooling, ROI Align utilise l'interpolation bilinéaire pour estimer les valeurs des pixels avec plus de précision. L'interpolation bilinéaire est une méthode qui calcule une nouvelle valeur de pixel en faisant la moyenne des valeurs de ses quatre voisins les plus proches, ce qui crée des transitions plus douces. Cela permet de maintenir les caractéristiques correctement alignées avec l'image originale, ce qui se traduit par une détection et une segmentation des objets plus précises.

Par exemple, lors d'un match de football, deux joueurs se tenant près l'un de l'autre peuvent être confondus l'un avec l'autre parce que leurs boîtes englobantes se chevauchent. ROI Align permet de les séparer en conservant la distinction de leurs formes. 

Fig 4. Mask R-CNN utilise ROI Align.

Classification des objets et prédiction de leurs masques

Une fois que ROI Align a traité l'image, l'étape suivante consiste à classer les objets et à affiner leur emplacement. Le modèle examine chaque région extraite et décide de l'objet qu'elle contient. Il attribue un score de probabilité à différentes catégories et choisit la meilleure correspondance.

Parallèlement, il ajuste les boîtes englobantes pour mieux s'adapter aux objets. Les boîtes initiales peuvent ne pas être idéalement placées, ce qui permet d'améliorer la précision en s'assurant que chaque boîte entoure étroitement l'objet détecté.

Enfin, Mask R-CNN franchit une étape supplémentaire : il génère un masque de segmentation détaillé pour chaque objet en parallèle.

Mask R-CNN et ses applications en temps réel

Lorsque ce modèle est sorti, il a suscité beaucoup d'enthousiasme au sein de la communauté de l'IA et a rapidement été utilisé dans diverses applications. Sa capacité à détecter et à segmenter des objets en temps réel en a fait un élément déterminant dans différents secteurs.

Par exemple, le suivi des animaux en voie de disparition dans la nature est une tâche ardue. De nombreuses espèces se déplacent dans des forêts denses, ce qui rend difficile pour les défenseurs de l'environnement de les suivre. Les méthodes traditionnelles utilisent des pièges photographiques, des drones et des images satellite, mais le tri manuel de toutes ces données prend beaucoup de temps. Les erreurs d'identification et les observations manquées peuvent ralentir les efforts de conservation.

En reconnaissant des caractéristiques uniques comme les rayures d'un tigre, les taches d'une girafe ou la forme des oreilles d'un éléphant, Mask R-CNN peut détecter et segmenter les animaux dans les images et les vidéos avec une plus grande précision. Même lorsque les animaux sont partiellement cachés par des arbres ou se tiennent les uns près des autres, le modèle peut les séparer et identifier chacun d'eux individuellement, ce qui rend la surveillance de la faune plus rapide et plus fiable.

Fig. 5. Détection et segmentation d'animaux à l'aide de Mask R-CNN.

Limites de Mask R-CNN

Malgré son importance historique dans la détection et la segmentation d'objets, Mask R-CNN présente également quelques inconvénients majeurs. Voici quelques défis liés à Mask R-CNN :

  • Forte demande de calcul : Il repose sur des GPU puissants, ce qui peut rendre son exécution coûteuse et lente lors du traitement de grandes quantités de données.

  • Vitesse de traitement plus lente : Son processus en plusieurs étapes le rend plus lent que les modèles en temps réel plus rapides comme YOLO, ce qui pourrait ne pas être idéal pour les tâches sensibles au facteur temps.

  • Dépendance à des données de haute qualité : Le modèle fonctionne mieux avec des images claires et bien étiquetées. Les images floues ou mal éclairées peuvent réduire considérablement sa précision.
  • Implémentation complexe : L'architecture multi-étapes peut être difficile à mettre en place et à optimiser, en particulier lorsqu'il s'agit de grands ensembles de données ou de ressources limitées.

De Mask R-CNN à Ultralytics YOLO11

Mask R-CNN était excellent pour les tâches de segmentation, mais de nombreuses industries cherchaient à adopter la vision par ordinateur tout en privilégiant la vitesse et les performances en temps réel. Cette exigence a conduit les chercheurs à développer des modèles en une seule étape qui détectent les objets en un seul passage, améliorant ainsi considérablement l'efficacité.

Contrairement au processus en plusieurs étapes de Mask R-CNN, les modèles de vision par ordinateur en une seule étape comme YOLO (You Only Look Once) se concentrent sur les tâches de vision par ordinateur en temps réel. Au lieu de traiter la détection et la segmentation séparément, les modèles YOLO peuvent analyser une image en une seule fois. Cela le rend idéal pour des applications telles que la conduite autonome, la santé, la fabrication et la robotique, où la prise de décision rapide est cruciale.

En particulier, YOLO11 va encore plus loin en étant à la fois rapide et précis. Il utilise 22 % de paramètres en moins que YOLOv8m, tout en atteignant une précision moyenne (mAP) plus élevée sur l'ensemble de données COCO, ce qui signifie qu'il détecte les objets avec plus de précision. Sa vitesse de traitement améliorée en fait un bon choix pour les applications en temps réel où chaque milliseconde compte.

Fig. 6. Performances de YOLO11 par rapport à d'autres modèles.

Principaux points à retenir

En revenant sur l'histoire de la vision par ordinateur, Mask R-CNN est reconnu comme une avancée majeure dans la détection et la segmentation d'objets. Il fournit des résultats très précis, même dans des environnements complexes, grâce à son processus détaillé en plusieurs étapes. 

Cependant, ce même processus le rend plus lent par rapport aux modèles en temps réel comme YOLO. Alors que le besoin de vitesse et d'efficacité augmente, de nombreuses applications utilisent désormais des modèles en une seule étape comme Ultralytics YOLO11, qui offrent une détection d'objets rapide et précise. Bien que Mask R-CNN soit important pour comprendre l'évolution de la vision par ordinateur, la tendance vers des solutions en temps réel souligne la demande croissante de solutions de vision par ordinateur plus rapides et plus efficaces.

Rejoignez notre communauté grandissante ! Explorez notre dépôt GitHub pour en savoir plus sur l'IA. Prêt à démarrer vos propres projets de vision par ordinateur ? Consultez nos options de licence. Découvrez l'IA dans l'agriculture et la Vision IA dans le secteur de la santé en visitant nos pages de solutions ! 

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers