Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Segmentation panoptique

Découvrez la segmentation panoptique pour unifier la segmentation sémantique et la segmentation d'instances. Découvrez comment Ultralytics offre une compréhension précise des scènes pour les projets d'IA.

La segmentation panoptique est une tâche complète de vision par ordinateur (CV) qui unifie deux formes distinctes d'analyse d'images : la segmentation sémantique et la segmentation d'instances. Alors que les méthodes traditionnelles traitent ces tâches séparément, soit en classant de manière générale les régions d'arrière-plan comme « ciel » ou « herbe », soit en détectant des objets spécifiques comme « voiture » ou « personne », la segmentation panoptique les combine dans un cadre unique et cohérent. Cette approche attribue une valeur unique à chaque pixel d'une image, fournissant une compréhension complète de la scène qui distingue les objets comptables (appelés « choses ») des zones d'arrière-plan amorphes (appelées « éléments »). En veillant à ce que chaque pixel soit pris en compte et classé, cette technique imite la perception visuelle humaine de manière plus fidèle que les méthodes de détection isolées.

Le concept fondamental : les objets matériels contre les choses

Pour bien comprendre la segmentation panoptique, il est utile de saisir la dichotomie des informations visuelles qu'elle traite. La tâche divise le monde visuel en deux catégories principales :

  • Catégories d'éléments: elles représentent des zones amorphes de texture ou de matériau similaire qui ne sont pas dénombrables. Il s'agit par exemple des routes, de l'eau, de l'herbe, du ciel et des murs. Dans une analyse panoptique, tous les pixels appartenant à une « route » sont regroupés en une seule zone sémantique, car la distinction entre segment « segment de route segment » et segment « segment de route segment » n'a généralement pas d'importance.
  • Catégories d'objets: il s'agit d'objets dénombrables avec une géométrie et des limites définies. Les piétons, les véhicules, les animaux et les outils en sont des exemples. Les modèles panoptiques doivent identifier chaque « objet » comme une entité unique, en veillant à ce que deux personnes se tenant côte à côte soient reconnues comme des instances distinctes (par exemple, « Personne A » et « Personne B ») plutôt que comme une masse fusionnée.

Cette distinction est cruciale pour les systèmes avancés d'intelligence artificielle (IA), leur permettant de naviguer dans des environnements tout en interagissant simultanément avec des objets spécifiques.

Comment fonctionnent les architectures panoptiques

Les architectures modernes de segmentation panoptique utilisent généralement une puissante infrastructure d'apprentissage profond (DL), telle qu'un réseau neuronal convolutif (CNN) ou un transformateur de vision (ViT), pour extraire des représentations riches des caractéristiques d'une image. Le réseau se divise généralement en deux branches ou « têtes » :

  1. Tête sémantique : cette branche prédit une étiquette de classe pour chaque pixel, générant une carte dense des « éléments » présents dans la scène.
  2. Tête d'instance : simultanément, cette branche utilise des techniques similaires à la détection d'objets pour localiser les « choses » et générer des masques pour celles-ci.

Un module de fusion ou une étape de post-traitement résout ensuite les conflits entre ces sorties, par exemple en déterminant si un pixel appartient à une instance « personne » ou au mur « arrière-plan » derrière elle, afin de produire une carte de segmentation panoptique finale sans chevauchement.

Applications concrètes

La nature holistique de la segmentation panoptique la rend indispensable pour les industries où la sécurité et le contexte sont primordiaux.

  • Véhicules autonomes: Les voitures autonomes s'appuient sur une perception panoptique pour rouler en toute sécurité. La composante sémantique identifie les surfaces praticables (routes) et les limites (trottoirs), tandis que la composante d'instance suit les obstacles dynamiques tels que les piétons et les autres véhicules. Cette vue unifiée aide les algorithmes de planification du véhicule à prendre des décisions plus sûres dans des scénarios complexes de gestion du trafic .
  • Analyse d'images médicales: En pathologie numérique, l'analyse d'échantillons de tissus nécessite souvent de segmenter la structure générale des tissus (matière) tout en comptant et en mesurant simultanément des types de cellules ou des tumeurs spécifiques (éléments). Cette analyse détaillée aide les médecins à quantifier et à diagnostiquer la maladie avec précision.
  • Robotique: les robots de service opérant dans des environnements non structurés, tels que les maisons ou les entrepôts, doivent faire la distinction entre le sol qu'ils peuvent parcourir (arrière-plan) et les objets qu'ils doivent manipuler ou éviter (instances).

Mise en œuvre de la segmentation avec Ultralytics

Bien que la formation panoptique complète puisse être complexe, les développeurs peuvent obtenir une segmentation d'instancede haute précision (un élément essentiel du puzzle panoptique) à l'aide Ultralytics . Ce modèle de pointe offre des performances en temps réel et est optimisé pour un déploiement en périphérie.

Python suivant montre comment charger un modèle de segmentation pré-entraîné et exécuter une inférence pour isoler des objets distincts :

from ultralytics import YOLO

# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")

# Run inference on an image to segment individual instances
# The model identifies 'things' and generates pixel-perfect masks
results = model("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with overlaid segmentation masks
results[0].show()

Pour les équipes qui cherchent à gérer leurs données d'entraînement et à automatiser le processus d'annotation, la Ultralytics fournit une suite d'outils pour la gestion des ensembles de données et l'entraînement des modèles. Une annotation de haute qualité est cruciale pour les tâches de segmentation, car les modèles ont besoin d'étiquettes précises au niveau des pixels pour apprendre efficacement.

Distinguer les termes apparentés

Il est essentiel de comprendre les nuances entre les différents types de segmentation afin de choisir le modèle le mieux adapté à votre projet :

  • Segmentation sémantique: Se concentre uniquement sur la classification des pixels en catégories. Elle répond à la question « à quelle classe appartient ce pixel ? » (par exemple, arbre, ciel), mais ne peut pas séparer les objets individuels d'une même classe. Si deux voitures se chevauchent, elles apparaissent comme un seul grand blob « voiture ».
  • Segmentation d'instance: Se concentre uniquement sur la détection et le masquage d'objets dénombrables. Elle répond à la question « de quel objet s'agit-il ? », mais ignore généralement complètement le contexte de l'arrière-plan.
  • Segmentation panoptique : combine les deux. Elle répond aux questions « qu'est-ce que ce pixel ? » et « à quelle instance d'objet appartient-il ? » pour l'ensemble de l'image, garantissant qu'aucun pixel n'est laissé sans classification.

Pour en savoir plus sur les formats de données utilisés dans ces tâches, vous pouvez consulter la documentationCOCO , qui est une référence standard pour mesurer les performances de segmentation.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant