Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Segmentation panoptique

Découvrez comment la segmentation panoptique unifie la segmentation sémantique et la segmentation d'instance pour une compréhension précise de la scène au niveau des pixels dans les applications d'IA.

La segmentation panoptique représente l'unification de deux tâches distinctes en vision par ordinateur : la segmentation sémantique et la segmentation d'instance. Alors que la segmentation sémantique attribue une étiquette de classe à chaque pixel d'une image (comme « ciel », « route » ou « herbe ») sans faire de distinction entre les objets individuels, la segmentation d'instance se concentre uniquement sur l' identification et la séparation d'objets spécifiques comptables (comme « personne », « voiture » ou « chien ») tout en ignorant l'arrière-plan. La segmentation panoptique comble cette lacune en fournissant une analyse complète de la scène où chaque pixel est classé. Elle identifie simultanément le contexte de l'arrière-plan (souvent appelé « stuff ») et délimite les objets individuels au premier plan (appelés « things »), offrant ainsi une compréhension holistique des données visuelles qui imite la perception humaine.

Concepts et mécanismes de base

Pour comprendre le fonctionnement de la segmentation panoptique, il est utile d'examiner les catégories d'informations visuelles qu'elle traite. La tâche divise le monde visuel en deux types principaux d'entités :

  • Éléments : il s'agit de zones amorphes de texture ou de matériau similaire qui ne présentent pas d'instances distinctes . Parmi les exemples, on peut citer des catégories sémantiques telles que le ciel, l'eau, la route et la végétation. Dans la segmentation panoptique, tous les pixels appartenant au « ciel » sont regroupés sans séparation.
  • Les objets : ce sont des objets dénombrables ayant une forme et des contours définis. Il s'agit par exemple des voitures, des piétons et des animaux. Les modèles panoptiques doivent identifier chaque « objet » comme une entité unique, en veillant à ce que deux personnes se tenant côte à côte soient reconnues comme « Personne A » et « Personne B », plutôt que comme une simple tache de pixels représentant une « personne ».

Les architectures modernes, telles que le Vision Transformer (ViT) ou les réseaux neuronaux convolutifs (CNN) avancés, constituent l'épine dorsale de ces systèmes. Elles extraient des cartes de caractéristiques riches à partir de l'image d'entrée. Une tête panoptique traite ensuite ces caractéristiques pour produire une carte de segmentation où chaque pixel a une étiquette sémantique (à quelle classe il appartient) et un identifiant d'instance (à quel objet spécifique il appartient).

Distinction entre les types de segmentation

Le choix de la bonne approche dépend fortement des exigences spécifiques de votre projet de vision par ordinateur (CV).

  • Segmentation sémantique: Idéale lorsque vous avez uniquement besoin de connaître la superficie totale couverte par une classe. Par exemple, une analyse satellite mesurant la couverture forestière totale par rapport à l'étalement urbain utiliserait cette méthode.
  • Segmentation d'instance: Idéale lorsque le comptage et le suivi d'objets individuels sont prioritaires et que l'arrière-plan n'a pas d'importance. Elle est courante dans les scénarios de suivi d'objets où vous devez suivre des voitures spécifiques dans la circulation.
  • Segmentation panoptique : requise lorsque l'interaction entre les objets et leur environnement est critique. Elle répond à la fois aux questions « qu'est-ce que ce pixel ? » et « à quel objet appartient ce pixel ? » pour l'ensemble de l'image.

Applications concrètes

La nature exhaustive de la segmentation panoptique la rend inestimable pour les systèmes d'intelligence artificielle (IA) complexes qui naviguent ou interagissent avec le monde physique.

  • Véhicules autonomes: Les voitures autonomes doivent comprendre l'ensemble de la scène pour fonctionner en toute sécurité. Elles doivent identifier les surfaces praticables (telles que les routes et les voies) tout en détectant simultanément les obstacles dynamiques (tels que les piétons et les autres véhicules). La segmentation panoptique fournit une vue unifiée qui aide les algorithmes de planification du véhicule à prendre des décisions plus sûres.
  • Analyse d'images médicales: En pathologie et radiologie numériques, la précision est primordiale. L'analyse d'un échantillon de tissu peut nécessiter la segmentation de la structure générale du tissu (arrière-plan) tout en identifiant et en comptant individuellement des types de cellules ou des anomalies spécifiques (instances). Cette analyse détaillée aide les médecins à détecter les tumeurs et à quantifier les maladies.
  • Robotique: les robots de service utilisés dans les maisons ou les entrepôts doivent faire la distinction entre le sol sur lequel ils peuvent se déplacer (les objets) et les obstacles ou les éléments qu'ils doivent manipuler (les choses).

Mise en œuvre de la segmentation avec Ultralytics

Si les pipelines de formation panoptiques complets peuvent être très gourmands en ressources informatiques, obtenir une segmentation d'instance de haute qualité , composante cruciale de la compréhension panoptique, est simple avec Ultralytics . Ce modèle de pointe offre des capacités d'inférence en temps réel, permettant aux développeurs de générer efficacement des masques précis pour des objets individuels.

Python suivant montre comment charger un modèle de segmentation pré-entraîné et traiter une image afin d'isoler des objets distincts :

from ultralytics import YOLO

# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image to segment individual instances
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with overlaid segmentation masks
results[0].show()

Pour des workflows plus avancés, tels que la formation sur des données personnalisées comme COCO , vous pouvez utiliser Ultralytics pour gérer vos ensembles de données et la formation de vos modèles. Il est essentiel de comprendre les nuances de l'annotation des données , car les ensembles de données panoptiques nécessitent un étiquetage rigoureux de chaque pixel des images de formation. L'utilisation d'outils tels que OpenCV en conjonction avec ces modèles permet un post-traitement et une analyse puissants des cartes de segmentation résultantes.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant