Glossaire

Segmentation sémantique

Découvre la puissance de la segmentation sémantique dans la vision par ordinateur, de l'analyse d'images au niveau du pixel aux applications d'IA du monde réel telles que les soins de santé et l'autonomie.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

La segmentation sémantique est une technique essentielle de la vision par ordinateur qui consiste à classer chaque pixel d'une image dans une classe spécifique. Contrairement à la détection d'objets, qui identifie et localise les objets à l'aide de boîtes de délimitation, la segmentation sémantique fournit une compréhension détaillée, au niveau des pixels, du contenu de l'image. Cette technique est essentielle pour les applications nécessitant une compréhension précise de la scène, où il est crucial de connaître les limites et les catégories exactes de tous les objets d'une image.

Concepts fondamentaux de la segmentation sémantique

La segmentation sémantique classe chaque pixel d'une image, en l'assignant à une classe ou à une catégorie prédéfinie. Par exemple, dans une image d'une scène de rue, les pixels représentant les voitures, les piétons, les routes et les bâtiments seraient chacun assignés à leur classe respective. Ce processus aboutit à une carte de segmentation où la couleur de chaque pixel correspond à une classe spécifique, ce qui permet d'obtenir une compréhension détaillée et complète de la scène. Ce niveau de détail est essentiel pour les applications qui nécessitent des limites d'objets et des relations spatiales précises.

Principales différences par rapport aux autres techniques de segmentation

La segmentation sémantique est souvent comparée à d'autres techniques de segmentation, telles que la segmentation par instance et la segmentation panoptique. Alors que la segmentation sémantique classe chaque pixel dans une catégorie sans différencier les instances individuelles de la même classe, la segmentation par instance va plus loin en distinguant chaque instance d'un objet. Par exemple, la segmentation par instance identifierait chaque voiture d'une image comme une entité distincte, alors que la segmentation sémantique étiquetterait simplement tous les pixels de la voiture comme appartenant à la classe "voiture". La segmentation panoptique combine les deux approches et permet une compréhension globale de la scène en classant chaque pixel et en différenciant les instances d'objets individuels.

Applications dans le monde réel

La segmentation sémantique a un large éventail d'applications dans divers secteurs, améliorant les capacités des systèmes d'IA dans les scénarios du monde réel. Voici deux exemples concrets :

Véhicules autonomes

Dans les voitures auto-conduites, la segmentation sémantique est utilisée pour interpréter l'environnement avec précision. En classant chaque pixel des images capturées par les caméras du véhicule, le système peut identifier les routes, les trottoirs, les autres véhicules, les piétons et les panneaux de signalisation. Cette compréhension détaillée de la scène permet au véhicule de naviguer en toute sécurité et de prendre des décisions éclairées en temps réel. Par exemple, le système peut faire la distinction entre une route et un trottoir, ce qui permet à la voiture de rester sur le bon chemin.

Imagerie médicale

La segmentation sémantique joue un rôle crucial dans l'imagerie médicale en aidant au diagnostic précis et à la planification du traitement. Par exemple, dans l'analyse des IRM ou des tomodensitogrammes, la segmentation sémantique peut être utilisée pour identifier et délimiter les différents tissus, organes et anomalies tels que les tumeurs. En classant chaque pixel dans des catégories telles que tissu sain, tumeur ou organes spécifiques, les médecins peuvent obtenir des informations précises sur la taille, la forme et l'emplacement des différentes structures. Cette segmentation détaillée permet d'établir un diagnostic précis, de planifier une intervention chirurgicale et de surveiller la progression des maladies.

Aspects techniques et concepts connexes

La segmentation sémantique s'appuie fortement sur des modèles d'apprentissage profond, en particulier les réseaux neuronaux convolutifs (CNN). Ces modèles sont entraînés sur de grands ensembles de données d'images où chaque pixel est étiqueté avec sa classe correspondante. Le processus d'entraînement consiste à ajuster les paramètres du modèle afin de minimiser la différence entre la carte de segmentation prédite et la vérité terrain.

Réseaux entièrement convolutifs (FCN): Les FCN constituent une architecture populaire pour la segmentation sémantique. Ils étendent les CNN traditionnels en remplaçant les couches entièrement connectées par des couches convolutives, ce qui permet au réseau de produire une carte de segmentation de la même taille que l'image d'entrée.

U-Net: Développé à l'origine pour la segmentation d'images biomédicales, U-Net est une autre architecture largement utilisée. Il se caractérise par une structure codeur-décodeur avec des connexions de saut qui aident à préserver les détails fins dans la carte de segmentation. U-Net s'est avéré efficace dans diverses applications en raison de sa capacité à capturer à la fois le contexte et une localisation précise.

DeepLab: Les modèles DeepLab utilisent des convolutions astrales et des champs aléatoires conditionnels (CRF) pour obtenir des résultats de segmentation précis. Les convolutions astrales permettent d'élargir le champ de vision sans augmenter le nombre de paramètres, tandis que les CRF affinent les limites de la segmentation. Les modèles DeepLab sont connus pour leur grande précision et sont utilisés dans diverses applications nécessitant une compréhension détaillée de la scène.

Outils et cadres de travail

Plusieurs outils et cadres soutiennent le développement et le déploiement de modèles de segmentation sémantique. TensorFlow et PyTorch sont des frameworks d'apprentissage profond populaires qui fournissent les éléments de base nécessaires à la mise en œuvre de modèles de segmentation. En outre, des bibliothèques comme OpenCV offrent des fonctionnalités pour le traitement des images et peuvent être utilisées conjointement avec des frameworks d'apprentissage profond.

Ultralytics YOLO (You Only Look Once), connus pour leurs capacités de détection d'objets en temps réel, prennent également en charge les tâches de segmentation sémantique. Le Ultralytics HUB simplifie encore le processus en fournissant des outils pour la formation et le déploiement de ces modèles sans nécessiter de connaissances approfondies en matière de codage. Les utilisateurs peuvent ainsi tirer parti de techniques de segmentation avancées dans divers secteurs, ce qui améliore l'efficacité opérationnelle et les processus de prise de décision.

Tout lire