Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Qu'est-ce que la segmentation d'instance ? Un guide rapide

Abirami Vina

6 min de lecture

6 mars 2025

Rejoignez-nous pour examiner de plus près ce qu'est la segmentation d'instance, comment elle fonctionne, son utilisation dans diverses applications de vision par ordinateur et l'impact qu'elle peut avoir.

Les applications de vision par ordinateur sont de plus en plus courantes dans notre vie quotidienne, des caméras de circulation qui surveillent l'état des routes aux systèmes de caisse automatique dans les magasins. En permettant aux machines de comprendre les données visuelles d'une manière similaire à celle des humains, la vision artificielle a un impact dans un large éventail d'industries.

Bon nombre de ces applications reposent sur la détection d'objets, une tâche de vision par ordinateur qui place des cadres de délimitation autour des objets clés dans les images. Bien que cette approche fonctionne souvent bien, certaines solutions d'analyse d'images nécessitent une précision encore plus grande.

Par exemple, l'imagerie médicale exige plus que la simple détection d'une tumeur : il est essentiel de délimiter sa forme exacte. De même, en robotique, les machines doivent reconnaître les contours exacts d'un objet pour le saisir correctement. Pour relever ces défis, la segmentation d'instance offre une solution plus précise.

La segmentation d'instance est une tâche de vision par ordinateur conçue pour prendre en charge les cas d'utilisation où la simple détection d'objets ne suffit pas : elle offre une précision au niveau du pixel. Les modèles de vision par ordinateur tels que Ultralytics YOLO11 peuvent être utilisés pour appliquer facilement la segmentation d'instance aux images et aux vidéos. 

__wf_reserved_inherit
Fig 1. Exemple d'utilisation de YOLO11 pour la segmentation d'instance.

Dans ce guide, nous allons décortiquer le fonctionnement de la segmentation d'instance, ses applications et comment Ultralytics YOLO11 peut être entraîné sur mesure pour des tâches de segmentation spécifiques.

Qu'est-ce que la segmentation d'instance ?

Supposons qu'il existe une photo de groupe de personnes se tenant près les unes des autres. La détection d'objets peut aider à dessiner des boîtes autour de chaque personne, mais cela ne vous indique pas leur forme exacte. 

La segmentation d'instance, d'autre part, s'apparente à un traçage minutieux autour de chaque personne afin que vous puissiez voir leur contour complet, même s'ils se chevauchent. Au lieu de simplement marquer l'emplacement d'un élément avec une boîte, elle identifie la forme exacte de chaque objet au niveau du pixel, ce qui facilite la compréhension des images complexes.

Le résultat est un masque détaillé qui remplit la forme d'un objet, identifiant avec précision les pixels qui lui appartiennent. Ce niveau de précision est utile dans de nombreuses applications du monde réel où il est important de comprendre la forme et les limites exactes des objets.

__wf_reserved_inherit
Fig 2. Présentation de la prise en charge de la segmentation d'instance par YOLO11.

Segmentation d'instance vs segmentation sémantique

Lors de l'exploration de la segmentation d'instance, vous pourriez rencontrer le concept de segmentation sémantique.

Les deux techniques aident les ordinateurs à comprendre les images au niveau des pixels, mais elles servent des objectifs différents. La segmentation sémantique étiquette chaque pixel en fonction de sa catégorie, regroupant tous les objets du même type. Par exemple, dans une image avec plusieurs voitures, la segmentation sémantique les marquerait toutes comme "voiture" sans distinguer les véhicules individuels.

La segmentation d'instance, quant à elle, va encore plus loin en identifiant chaque objet séparément. Elle attribue des étiquettes uniques aux instances individuelles et crée des masques précis autour de leurs formes. Ainsi, dans la même image, la segmentation d'instance ne se contenterait pas d'étiqueter tout comme "voiture", mais reconnaîtrait et délimiterait chaque voiture individuellement.

La principale différence entre les deux est que la segmentation sémantique regroupe les objets par catégorie, tandis que la segmentation d'instance distingue chaque objet comme une entité unique avec des limites claires. Le choix de la tâche à utiliser dépend de l'application spécifique : est-il suffisant de savoir ce qu'il y a dans une image ou est-il important de différencier les objets individuels.

__wf_reserved_inherit
Fig 3. Segmentation d'instance vs segmentation sémantique (à droite et à gauche, respectivement).

Modèles de segmentation d'instance populaires

Il existe de nombreux modèles de segmentation d'instance disponibles pour la communauté Vision AI aujourd'hui. Certains sont plus rapides, d'autres plus précis et d'autres plus faciles à utiliser. 

Ces options, bien qu'utiles, peuvent soulever la question de savoir laquelle est la plus appropriée pour une tâche spécifique. Parmi les options, les modèles Ultralytics YOLO sont très populaires car ils mettent l'accent sur la vitesse et la précision. 

De plus, ces modèles ont considérablement évolué au fil des ans. Par exemple, Ultralytics YOLOv5 a simplifié le déploiement en utilisant des frameworks comme PyTorch, rendant l'IA de vision avancée accessible à un public plus large sans nécessiter une expertise technique approfondie.

Fort de ce succès, Ultralytics YOLOv8 a introduit une prise en charge améliorée des tâches de vision par ordinateur telles que la segmentation d'instance, l'estimation de pose et la classification d'images. 

Désormais, YOLO11 porte les performances à un niveau supérieur. Il atteint une précision moyenne (mAP) plus élevée sur l'ensemble de données COCO avec 22 % de paramètres en moins que YOLOv8m, ce qui signifie qu'il peut reconnaître les objets plus précisément tout en utilisant moins de ressources.

__wf_reserved_inherit
Fig. 4. Benchmarking de YOLO11.

En termes simples, YOLO11 offre une précision de pointe sans compromettre l'efficacité, ce qui en fait un acteur majeur dans le domaine.

Comprendre le fonctionnement de la segmentation d'instance

Ensuite, explorons le fonctionnement typique de la segmentation d'instance. Les anciens modèles de vision par ordinateur utilisent une approche en deux étapes. 

Tout d'abord, ils détectent les objets en dessinant des boîtes englobantes autour d'eux. Ensuite, ils génèrent un masque au niveau des pixels pour délimiter la forme exacte de chaque objet. Un exemple bien connu est Mask R-CNN, qui s'appuie sur des modèles de détection d'objets en ajoutant une étape de prédiction de masque. Bien que cette méthode soit efficace, elle peut être lente car elle traite l'image en plusieurs étapes, ce qui rend les applications en temps réel plus difficiles.

Parallèlement, des modèles comme YOLO11 traitent les images en une seule fois, prédisant simultanément les boîtes englobantes d'objets et les masques de segmentation d'instance. Cette approche rationalisée la rend beaucoup plus rapide tout en conservant une grande précision. Par conséquent, elle est particulièrement utile pour les applications en temps réel comme la conduite autonome, l'analyse vidéo et la robotique, où la vitesse et la précision sont cruciales.

Entraînement personnalisé de YOLO11 pour la segmentation d'instance

YOLO11 est livré prêt à l'emploi en tant que modèle pré-entraîné. Il a été entraîné sur l'ensemble de données COCO-Seg, qui couvre les objets du quotidien pour la segmentation d'instance. Cependant, le package Python Ultralytics prend en charge l'entraînement personnalisé, ce qui est essentiel pour les applications spécialisées où des objets uniques doivent être segmentés.

Pourquoi la formation personnalisée ou le réglage fin d'un modèle est-il important ? La formation personnalisée tire parti de l'apprentissage par transfert en s'appuyant sur les connaissances déjà intégrées dans les modèles pré-entraînés. Plutôt que de partir de zéro, elle adapte un modèle existant à de nouvelles tâches en utilisant des ensembles de données plus petits et moins de ressources informatiques, tout en conservant une grande précision.

Comment entraîner YOLO11 personnalisé

Voici un aperçu plus détaillé des étapes impliquées dans le fine-tuning de YOLO11 pour la segmentation d'instances : 

  • Préparation des données : Collectez et annotez des images en fonction de votre application spécifique. Ultralytics prend en charge plusieurs ensembles de données d'images, mais vous pouvez également effectuer l'entraînement en utilisant votre propre ensemble de données en préparant les images et les annotations dans le format YOLO requis.
  • Utilisation d’un modèle pré-entraîné : Au lieu de partir de zéro, utilisez un modèle Ultralytics YOLO11 pré-entraîné. 
  • Entraînement du modèle : Ajustez les paramètres d'entraînement essentiels tels que la taille du lot (images traitées par itération), la taille de l'image (résolution d'entrée cible) et les époques (cycles d'entraînement totaux) et entraînez le modèle. 
  • Évaluation des performances : Une fois l'entraînement du modèle terminé, vous pouvez tester la précision du modèle à l'aide de métriques de performance telles que le mAP. Le paquet Python Ultralytics fournit également des fonctions intégrées pour l'évaluation du modèle.

Applications de segmentation d'instance activées par YOLO11

La segmentation d'instance peut être utilisée pour résoudre des problèmes concrets en aidant les machines à voir et à comprendre les objets avec plus de précision. De l'amélioration de l'automatisation à la protection de l'environnement, elle joue un rôle clé dans de nombreux domaines. Examinons quelques exemples de son impact.

Sécurité et surveillance des chantiers de construction à l'aide de YOLO11

La segmentation d'instance peut jouer un rôle essentiel pour garantir la sécurité et l'efficacité sur les chantiers de construction. Par exemple, elle peut être utilisée pour surveiller les engins lourds. 

YOLO11 peut être affiné pour segmenter et identifier avec précision différents types d'équipements, tels que les grues, les excavatrices et les bulldozers, et suivre leurs positions en temps réel. Cela permet aux responsables de chantier de s'assurer que les machines fonctionnent strictement dans les zones désignées et n'empiètent pas sur les zones où des travailleurs sont présents ou où des dangers existent. 

De plus, l'intégration de telles solutions avec des systèmes d'alerte en temps réel permet de prendre rapidement des mesures correctives. Au-delà de cela, les informations recueillies peuvent aider à optimiser la disposition du site et le workflow, réduisant ainsi davantage les risques et augmentant la productivité.

__wf_reserved_inherit
Fig 5. Surveillance d'engins lourds à l'aide de YOLO11.

Surveillance des animaux avec la segmentation et YOLO11

La surveillance du comportement animal aide les chercheurs, les agriculteurs et les défenseurs de l'environnement à mieux prendre soin des animaux dans différents environnements. La segmentation d'instance joue un rôle utile dans ces systèmes en identifiant et en segmentant les animaux individuels dans les fermes, les zoos et les habitats naturels. Contrairement à la détection d'objets traditionnelle qui utilise des boîtes englobantes, la segmentation d'instance fournit une délimitation au niveau des pixels de chaque animal, ce qui est particulièrement utile lorsque les animaux sont à proximité les uns des autres.

Une segmentation détaillée facilite un suivi plus précis des mouvements et des comportements. Les animaux qui se chevauchent ou sont étroitement regroupés peuvent être clairement reconnus, ce qui permet une analyse plus précise des interactions, des évaluations de la santé et des schémas d'activité. Globalement, une connaissance plus approfondie du comportement animal améliore les pratiques de soins et de gestion des animaux.

__wf_reserved_inherit
Fig 6. Surveillance du bétail à l'aide de la segmentation d'instance.

YOLO11 dans l'analyse sportive et le suivi des joueurs

Le suivi précis des joueurs et des événements est un élément essentiel de l'analyse sportive. Les méthodes de suivi traditionnelles reposent sur le marquage manuel, qui peut ne pas saisir les interactions détaillées. La vision par ordinateur peut être utilisée pour segmenter les détails tels que chaque joueur, le ballon et les événements clés au niveau du pixel afin d'obtenir des informations détaillées.

Par exemple, la segmentation d'instances peut aider à détecter des événements tels que des fautes ou des incidents hors-jeu en séparant clairement chaque joueur et chaque objet. Cette surveillance granulaire permise par des modèles comme YOLO11 offre aux analystes des informations plus claires pour étudier les schémas de mouvement, le positionnement spatial et les interactions avec une grande précision. Un avantage clé de ces informations est qu'elles aident les équipes à affiner leurs stratégies et à améliorer leurs performances globales.

Avantages et inconvénients de la segmentation d'instance

Voici quelques-uns des principaux avantages que la segmentation d'instance peut apporter à divers secteurs :

  • Automatisation améliorée : En automatisant des tâches telles que le contrôle de la qualité et la surveillance de la sécurité, la segmentation d'instance réduit le besoin d'intervention manuelle et minimise les erreurs humaines.
  • Meilleure compréhension de la scène : En délimitant avec précision chaque objet, la segmentation d'instance contribue à une compréhension plus approfondie des scènes complexes, soutenant une prise de décision plus éclairée.
  • Post-traitement efficace : La sortie au niveau des pixels simplifie les tâches telles que la suppression de l'arrière-plan, le comptage d'objets et l'analyse spatiale, réduisant ainsi le besoin d'étapes de traitement supplémentaires.

Bien que ces avantages soulignent l'impact de la segmentation d'instance sur différents cas d'utilisation, il est également essentiel de tenir compte des défis liés à sa mise en œuvre. 

Voici quelques-unes des principales limitations de la segmentation d'instance :

  • Défis liés à la transparence : La segmentation des objets transparents ou réfléchissants comme le verre et l’eau est difficile, ce qui entraîne des limites inexactes.
  • Frais de maintenance : Pour que les modèles restent précis et pertinents, des mises à jour et un ajustement continu sont nécessaires à mesure que les conditions environnementales et les ensembles de données évoluent.
  • Effort d'annotation élevé : L'entraînement des modèles de segmentation d'instance nécessite des annotations détaillées au niveau des pixels, ce qui augmente considérablement le temps et le coût de la préparation des données.

Principaux points à retenir

La segmentation d'instance permet de distinguer les objets individuels avec précision, même lorsqu'ils se chevauchent. En capturant les limites des objets au niveau du pixel, elle offre une compréhension plus approfondie des données visuelles par rapport aux tâches traditionnelles de vision par ordinateur telles que la détection d'objets.

Les récentes avancées en vision par ordinateur ont rendu la segmentation d'instances plus rapide et plus facile à utiliser. En particulier, les modèles de vision par ordinateur comme Ultralytics YOLO11 simplifient le processus, permettant une segmentation en temps réel avec une configuration minimale, la rendant plus accessible pour diverses industries et applications.

L'IA vous intéresse ? Visitez notre dépôt GitHub et connectez-vous à notre communauté pour continuer à explorer. Découvrez les innovations telles que l'IA dans les voitures autonomes et la Vision IA dans l'agriculture sur nos pages de solutions. Consultez nos options de licence et lancez-vous dans un projet de vision par ordinateur !

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement
Lien copié dans le presse-papiers