Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Segmentation sémantique

Découvrez la puissance de la segmentation sémantique : classify chaque pixel des images pour une compréhension précise de la scène. Explorez les applications et les outils dès maintenant !

La segmentation sémantique est une technique fondamentale de la vision par ordinateur (VA) qui implique l'attribution d'une une étiquette de classe spécifique à chaque pixel d'une image. Contrairement aux tâches plus simples qui consistent à catégoriser l'ensemble d'une image ou de placer une boîte de délimitation autour d'un objet, la segmentation sémantique fournit une carte parfaite de la scène. Ce niveau Ce niveau de détail granulaire permet aux machines de comprendre les limites et les formes précises des objets, en classant des régions distinctes telles que la "route", le "chemin" ou la "route". régions distinctes telles que "route", "personne", "ciel" ou "tumeur". En traitant une une image comme une collection de pixels classés plutôt que comme une simple somme d'objets, cette méthode offre une du contexte visuel, ce qui est essentiel pour les systèmes avancés d'intelligence systèmes avancés d'intelligence artificielle (IA) qui interagissent avec des environnements complexes.

Mécanismes de base de la classification au niveau du pixel

Le processus de segmentation sémantique s'appuie fortement sur des modèles d'apprentissage profond (DL), en particulier des architectures basées sur réseaux neuronaux convolutifs (CNN). Ces modèles sont entraînés sur de grands grands ensembles de données annotées où des annotateurs humains experts ont étiqueté chaque pixel. Au cours de la formation, le réseau apprend à associer des caractéristiques de bas niveau telles que les textures et les bords à des concepts sémantiques de haut niveau.

Un modèle architectural courant implique une structure codeur-décodeur:

  • Encodeur : Il sous-échantillonne l'image d'entrée pour capturer le contexte sémantique et réduire les dimensions spatiales.
  • Décodeur : suréchantillonne les caractéristiques codées à la résolution de l'image originale pour générer une carte de prédiction. carte de prédiction.

Les architectures pionnières telles que les réseaux entièrement convolutifs (Fully Convolutional Networks - FCN) ont ont jeté les bases en remplaçant les couches entièrement connectées par des couches convolutives pour produire des cartes spatiales. Des conceptions plus plus spécialisés, tels que les U-Net, utilisent des sauts de connexion pour pour préserver les détails les plus fins, ce qui les rend très efficaces pour les tâches nécessitant une grande précision.

distinguer la segmentation sémantique des tâches connexes

Pour choisir l'outil adéquat pour un projet, il est essentiel de distinguer la segmentation sémantique des autres tâches de vision par ordinateur. tâches de vision par ordinateur:

  • Détection d'objets: Identifie les objets et les localise objets et les localise à l'aide de boîtes rectangulaires rectangulaires. Il répond à la question "où se trouve l'objet ? mais ignore la forme exacte de l'objet.
  • Segmentation par instance: Semblable à la segmentation sémantique, elle distingue les instances individuelles d'une même classe. Par exemple, alors que la segmentation sémantique attribue la même couleur à tous les pixels "voiture", la segmentation par instance attribue un identifiant unique à "voiture 1", "voiture 2", etc. unique à "voiture 1", "voiture 2", etc.
  • Classification des images: Attribue une étiquette unique à l'ensemble de l'image (par exemple, "scène de plage") sans identifier l'emplacement d'éléments spécifiques. éléments spécifiques.

Applications concrètes

La possibilité d'analyser les scènes au niveau du pixel a stimulé l'innovation dans de nombreux secteurs :

  • Véhicules autonomes: Les voitures autonomes utilisent la segmentation sémantique pour identifier les surfaces praticables (routes), les panneaux de signalisation, les piétons et les obstacles. piétons et les obstacles. Des ensembles de données tels que Cityscapes sont largement utilisés pour former des modèles permettant de naviguer en toute sécurité dans les environnements urbains. modèles pour naviguer en toute sécurité dans les environnements urbains.
  • Analyse d'images médicales: Dans le domaine des soins de santé, la précision est vitale. Les modèles segment organes, les lésions et les tumeurs dans les images d IRM ou CT ou de tomodensitométrie. Ils aident les radiologues à quantifier le volume des tissus et à planifier les interventions chirurgicales.
  • Analyse d'images satellites: La segmentation sémantique facilite la classification de l'occupation des sols, le suivi de la déforestation et la planification urbaine. Des organisations comme la NASA utilisent ces techniques pour surveiller les changements environnementaux à l'échelle mondiale. à l'échelle mondiale.
  • Agriculture de précision: Les agriculteurs utilisent la segmentation pour distinguer les cultures des mauvaises herbes, ce qui permet de cibler l'application d'herbicides et de réduire ainsi l'utilisation et les coûts des produits chimiques. l'utilisation de produits chimiques et les coûts.

Mise en œuvre de la segmentation sémantique

Les frameworks modernes tels que PyTorch et TensorFlow fournissent les outils nécessaires à la construction de modèles de segmentation. Cependant, les bibliothèques de haut niveau bibliothèques de haut niveau simplifient considérablement le processus. Les bibliothèques de haut niveau simplifient considérablement le processus. Ultralytics YOLO11 prennent en charge les tâches de segmentation, offrant un équilibre entre vitesse et précision de vitesse et de précision adapté à l'inférence l 'inférence en temps réel.

L'exemple suivant montre comment charger un modèle de segmentation YOLO11 pré-entraîné et effectuer une inférence sur une image à l'aide de l'outil d'inférence YOLO11 . à l'aide de l'outil ultralytics paquet python .

from ultralytics import YOLO

# Load a pre-trained YOLO11 segmentation model
model = YOLO("yolo11n-seg.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Visualize the segmentation mask results
results[0].show()

Pour les développeurs qui souhaitent créer des solutions personnalisées, des outils d'annotation tels que LabelMe ou CVAT sont sont essentiels pour préparer les données de formation. Une fois formés, ces modèles peuvent être déployés sur des appareils périphériques à l'aide de la technologie OpenCV ou des formats optimisés comme ONNX pour une performance efficace dans les environnements de production.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant