Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
IA de vision

Qu'est-ce que Mask R-CNN et comment ça fonctionne ?

Apprends comment Mask R-CNN peut être utilisé pour segmenter précisément les objets dans les images et vidéos pour diverses applications dans différents secteurs.

ABAbirami Vina
4 min read
Segmentation d'instance avec Mask R-CNN

Des innovations comme les robots dans les entrepôts, les voitures autonomes circulant en toute sécurité dans des rues animées, les drones surveillant les cultures et les systèmes d'IA inspectant les produits dans les usines deviennent de plus en plus courants avec l'adoption croissante de l'IA. Une technologie clé à l'origine de ces innovations est la computer vision, une branche de l'IA qui permet aux machines de comprendre et d'interpréter les données visuelles.

Par exemple, la détection d'objets est une tâche de vision par ordinateur qui aide à identifier et à localiser des objets dans des images à l'aide de boîtes englobantes. Bien que les boîtes englobantes offrent des informations utiles, elles ne fournissent qu'une estimation approximative de la position d'un objet et ne peuvent pas capturer sa forme ou ses limites exactes. Cela les rend moins efficaces pour les applications nécessitant une identification précise.

Pour résoudre ce problème, les chercheurs ont développé des modèles de segmentation qui capturent les contours exacts des objets, fournissant des détails au niveau du pixel pour une détection et une analyse plus précises.

Mask R-CNN est l'un de ces modèles. Introduit en 2017 par Facebook AI Research (FAIR), il s'appuie sur des modèles antérieurs comme R-CNN, Fast R-CNN et Faster R-CNN. En tant qu'étape importante dans l'histoire de la vision par ordinateur, Mask R-CNN a ouvert la voie à des modèles plus avancés, tels que Ultralytics YOLO11.

Dans cet article, nous allons explorer ce qu'est Mask R-CNN, comment il fonctionne, ses applications et les améliorations qui ont suivi, menant à YOLO11.

Link to this sectionUn aperçu de Mask R-CNN#

Mask R-CNN, qui signifie Mask Region-based Convolutional Neural Network, est un modèle d'apprentissage profond conçu pour des computer vision tasks comme la détection d'objets et la segmentation d'instance.

La segmentation d'instance va au-delà de la détection d'objets traditionnelle en identifiant non seulement les objets dans une image, mais aussi en délimitant précisément chacun d'entre eux. Elle attribue une étiquette unique à chaque objet détecté et capture sa forme exacte au niveau du pixel. Cette approche détaillée permet de distinguer clairement les objets qui se chevauchent et de traiter avec précision les formes complexes.

Mask R-CNN s'appuie sur Faster R-CNN, qui détecte et étiquette les objets mais ne définit pas leurs formes exactes. Mask R-CNN améliore cela en identifiant les pixels exacts qui composent chaque objet, permettant une analyse d'image beaucoup plus détaillée et précise.

Comparaison de la détection d'objets et de la segmentation d'instances

Fig 1. Comparaison de la détection d'objets et de la segmentation d'instance.

Link to this sectionUn regard sur l'architecture de Mask R-CNN et son fonctionnement#

Mask R-CNN adopte une approche étape par étape pour détecter et segmenter les objets avec précision. Il commence par extraire les caractéristiques clés à l'aide d'un réseau neuronal profond (un modèle multicouche qui apprend à partir des données), puis identifie les zones potentielles d'objets avec un réseau de proposition de région (un composant qui suggère les zones probables d'objets), et affine enfin ces zones en créant des masques de segmentation détaillés (contours précis des objets) qui capturent la forme exacte de chaque objet.

Ensuite, nous passerons en revue chaque étape pour mieux comprendre comment Mask R-CNN fonctionne.

Vue d'ensemble de l'architecture de Mask R-CNN

Fig 2. Un aperçu de l'architecture de Mask R-CNN (Source : researchgate.net).

Link to this sectionCommencer par l'extraction de caractéristiques#

La première étape de l'architecture de Mask R-CNN consiste à décomposer l'image en ses parties clés afin que le modèle puisse comprendre ce qu'elle contient. Pense-y comme lorsque tu regardes une photo et que tu remarques naturellement des détails tels que les formes, les couleurs et les contours. Le modèle fait quelque chose de similaire en utilisant un réseau neuronal profond appelé "backbone" (souvent ResNet-50 ou ResNet-101), qui agit comme ses yeux pour scanner l'image et détecter les détails clés.

Comme les objets dans les images peuvent être très petits ou très grands, Mask R-CNN utilise un Feature Pyramid Network. C'est comme avoir différentes loupes qui permettent au modèle de voir à la fois les détails fins et l'ensemble de l'image, garantissant que les objets de toutes tailles sont remarqués.

Une fois que ces caractéristiques importantes sont extraites, le modèle passe ensuite à la localisation des objets potentiels dans l'image, préparant ainsi le terrain pour une analyse plus approfondie.

Link to this sectionSuggérer des zones potentielles dans l'image contenant des objets#

Une fois que l'image a été traitée pour ses caractéristiques clés, le Region Proposal Network prend le relais. Cette partie du modèle examine l'image et suggère les zones susceptibles de contenir des objets.

Il le fait en générant plusieurs emplacements d'objets possibles appelés anchors. Le réseau évalue ensuite ces ancres et sélectionne les plus prometteuses pour une analyse plus approfondie. De cette façon, le modèle se concentre uniquement sur les zones les plus susceptibles d'être intéressantes, plutôt que de vérifier chaque point de l'image.

Schéma d'un réseau de proposition de régions

Fig 3. Un exemple de Region Proposal Network.

Link to this sectionAméliorer les caractéristiques extraites#

Avec les zones clés identifiées, l'étape suivante consiste à affiner les détails extraits de ces régions. Les modèles précédents utilisaient une méthode appelée ROI Pooling (Region of Interest Pooling) pour récupérer les caractéristiques de chaque zone, mais cette technique conduisait parfois à de légers désalignements lors du redimensionnement des régions, la rendant moins efficace, surtout pour les objets petits ou qui se chevauchent.

Mask R-CNN améliore cela en utilisant une technique appelée ROI Align (Region of Interest Align). Au lieu d'arrondir les coordonnées comme le fait ROI Pooling, ROI Align utilise l'interpolation bilinéaire pour estimer les valeurs des pixels plus précisément. L'interpolation bilinéaire est une méthode qui calcule une nouvelle valeur de pixel en faisant la moyenne des valeurs de ses quatre voisins les plus proches, ce qui crée des transitions plus fluides. Cela permet de garder les caractéristiques correctement alignées avec l'image originale, ce qui se traduit par une détection et une segmentation d'objets plus précises.

Par exemple, lors d'un match de football, deux joueurs debout près l'un de l'autre pourraient être confondus parce que leurs boîtes englobantes se chevauchent. ROI Align aide à les séparer en gardant leurs formes distinctes.

Schéma montrant comment Mask R-CNN utilise ROI Align

Fig 4. Mask R-CNN utilise ROI Align.

Link to this sectionClassifier les objets et prédire leurs masques#

Une fois que ROI Align traite l'image, l'étape suivante consiste à classifier les objets et à affiner leurs emplacements. Le modèle examine chaque région extraite et décide quel objet elle contient. Il attribue un score de probabilité à différentes catégories et choisit la meilleure correspondance.

En même temps, il ajuste les boîtes englobantes pour mieux s'adapter aux objets. Les boîtes initiales peuvent ne pas être idéalement placées, donc cela aide à améliorer la précision en s'assurant que chaque boîte entoure étroitement l'objet détecté.

Enfin, Mask R-CNN franchit une étape supplémentaire : il génère un segmentation mask détaillé pour chaque objet en parallèle.

Link to this sectionMask R-CNN et ses applications en temps réel#

Lorsque ce modèle est sorti, il a été accueilli avec beaucoup d'enthousiasme par la communauté IA et a rapidement été utilisé dans diverses applications. Sa capacité à détecter et à segmenter des objets en temps réel en a fait un véritable changement de jeu dans différents secteurs.

Par exemple, tracking endangered animals à l'état sauvage est une tâche difficile. De nombreuses espèces se déplacent dans des forêts denses, ce qui rend difficile pour les défenseurs de la nature de les suivre. Les méthodes traditionnelles utilisent des pièges photographiques, des drones et des images satellites, mais trier toutes ces données à la main prend beaucoup de temps. Les erreurs d'identification et les observations manquées peuvent ralentir les efforts de conservation.

En reconnaissant des caractéristiques uniques comme les rayures d'un tigre, les taches d'une girafe ou la forme des oreilles d'un éléphant, Mask R-CNN peut détecter et segmenter les animaux dans les images et les vidéos avec une plus grande précision. Même lorsque les animaux sont partiellement cachés par des arbres ou debout près les uns des autres, le modèle peut les séparer et identifier chacun individuellement, rendant la surveillance de la faune plus rapide et plus fiable.

Détection et segmentation d'animaux utilisant Mask R-CNN

Fig 5. Détection et segmentation d'animaux utilisant Mask R-CNN.

Link to this sectionLimites de Mask R-CNN#

Malgré son importance historique dans la détection et la segmentation d'objets, Mask R-CNN présente également quelques inconvénients majeurs. Voici quelques défis liés à Mask R-CNN :

  • High computational demand : Il repose sur des GPU puissants, ce qui peut le rendre coûteux à exécuter et lent lors du traitement de grandes quantités de données.
  • Vitesse de traitement plus lente : Son processus multi-étapes le rend plus lent par rapport aux modèles temps réel plus rapides comme YOLO, ce qui pourrait ne pas être idéal pour les tâches sensibles au temps.
  • Dépendance à des données de haute qualité : Le modèle fonctionne mieux avec des images claires et bien étiquetées. Les images floues ou mal éclairées peuvent réduire considérablement sa précision.
  • Mise en œuvre complexe : L'architecture multi-étapes peut être difficile à configurer et à optimiser, surtout lorsqu'on traite de grands jeux de données ou des ressources limitées.

Link to this sectionDe Mask R-CNN à Ultralytics YOLO11#

Mask R-CNN était excellent pour les tâches de segmentation, mais de nombreuses industries cherchaient à adopter la vision par ordinateur tout en privilégiant la vitesse et la performance en temps réel. Cette exigence a conduit les chercheurs à développer des modèles à une étape qui détectent les objets en un seul passage, améliorant considérablement l'efficacité.

Contrairement au processus multi-étapes de Mask R-CNN, les computer vision models à une étape comme YOLO (You Only Look Once) se concentrent sur les tâches de vision par ordinateur en temps réel. Au lieu de gérer la détection et la segmentation séparément, les modèles YOLO peuvent analyser une image en une seule fois. Cela le rend idéal pour des applications telles que la conduite autonome, la santé, la fabrication et la robotique, où une prise de décision rapide est cruciale.

En particulier, YOLO11 va encore plus loin en étant à la fois rapide et précis. Il utilise 22 % de paramètres en moins que YOLOv8m mais atteint tout de même une précision moyenne (mAP) plus élevée sur le jeu de données COCO, ce qui signifie qu'il détecte les objets avec plus de précision. Sa vitesse de traitement améliorée en fait un bon choix pour les applications en temps réel où chaque milliseconde compte.

Performance de YOLO11 comparée à d'autres modèles

Fig 6. Performance de YOLO11 en comparaison aux autres modèles.

Link to this sectionPoints clés#

En examinant l'histoire de la vision par ordinateur, Mask R-CNN est reconnu comme une percée majeure dans la détection et la segmentation d'objets. Il offre des résultats très précis même dans des environnements complexes, grâce à son processus détaillé en plusieurs étapes.

Cependant, ce même processus le rend plus lent par rapport aux modèles en temps réel comme YOLO. Alors que le besoin de vitesse et d'efficacité grandit, de nombreuses applications utilisent désormais des modèles à une étape comme Ultralytics YOLO11, qui offrent une détection d'objets rapide et précise. Bien que Mask R-CNN soit important pour comprendre l'évolution de la vision par ordinateur, la tendance vers des solutions en temps réel souligne la demande croissante pour des solutions de vision par ordinateur plus rapides et plus efficaces.

Rejoins notre communauté grandissante ! Explore notre dépôt GitHub pour en savoir plus sur l'IA. Prêt à démarrer tes propres projets de vision par ordinateur ? Consulte nos options de licence. Découvre l'IA dans l'agriculture et l'IA visuelle dans la santé en visitant nos pages de solutions !

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.
En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.
En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.
En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.
En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.
En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.
En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique