Glossaire

Segmentation panoptique

Découvrez comment la segmentation panoptique unifie la segmentation sémantique et la segmentation d'instance pour une compréhension précise de la scène au niveau du pixel dans les applications d'intelligence artificielle.

La segmentation panoptique est une tâche avancée de vision par ordinateur qui permet d'obtenir une compréhension globale, au niveau des pixels, d'une scène entière. Elle regroupe deux tâches distinctes : la segmentation sémantique et la segmentation d'instance. L'objectif est d'attribuer à chaque pixel d'une image une étiquette de classe (voiture, personne ou ciel) et, pour les objets distincts, un identifiant d'instance unique. Cela permet d'obtenir un résultat plus holistique et plus détaillé que ce que l'une ou l'autre des méthodes de segmentation peut réaliser seule, ce qui permet aux machines de percevoir les environnements visuels avec un niveau de détail plus proche de celui de la vision humaine. Le terme a été introduit dans l'article révolutionnaire "Panoptic Segmentation" publié en 2018 par des chercheurs du FAIR.

Panoptique et autres types de segmentation

Pour bien comprendre la segmentation panoptique, il est utile de la comparer à ses éléments constitutifs :

  • Segmentation sémantique: Cette technique permet de classer chaque pixel d'une image dans une catégorie spécifique. Par exemple, tous les pixels appartenant à des voitures sont classés dans la catégorie "voiture" et tous les pixels de la route sont classés dans la catégorie "route". Toutefois, elle ne fait pas de distinction entre les différentes instances d'une même classe d'objets. Deux voitures distinctes placées l'une à côté de l'autre feraient partie de la même carte de pixels "voiture".
  • Segmentation des instances: Cette méthode permet de détecter et de segmenter des objets individuels, souvent appelés "choses" (voitures, piétons, animaux, etc.). Elle attribue un masque unique à chaque instance d'objet détectée, par exemple car_1, car_2et pedestrian_1. Cependant, la segmentation des instances ignore généralement les régions d'arrière-plan amorphes, ou "trucs" (par exemple, le ciel, la route, l'herbe, les murs), qui n'ont pas de forme ou de nombre distincts.
  • Segmentation panoptique : Cette méthode combine les forces de la segmentation sémantique et de la segmentation par instance. Elle segmente chaque pixel de l'image, fournissant une étiquette de classe pour les "choses" et les "objets". Surtout, elle attribue également un identifiant d'instance unique à chaque "chose", ce qui permet d'obtenir une interprétation complète et unifiée de la scène. Par exemple, un modèle panoptique ne se contente pas d'étiqueter le ciel et la route, mais identifie et délimite également les éléments suivants car_1, car_2et pedestrian_1 en tant qu'entités distinctes. Cette approche globale est essentielle pour les Applications de l'IA.

Applications de la segmentation panoptique

La compréhension détaillée de la scène offerte par la segmentation panoptique est inestimable dans divers domaines :

  • Véhicules autonomes: Les voitures autonomes ont besoin d'une compréhension complète de leur environnement pour naviguer en toute sécurité. La segmentation panoptique leur permet d'identifier des surfaces amorphes comme la route et les trottoirs ("choses") tout en distinguant les voitures individuelles, les piétons et les cyclistes ("choses"), même lorsqu'ils se chevauchent. Cette perception détaillée, comme le démontrent les systèmes d'entreprises telles que Waymo, est essentielle à la planification de trajectoires et à la prise de décisions en toute sécurité. Découvrez comment Ultralytics contribue à l'IA dans les solutions automobiles.
  • Analyse d'images médicales: Lors de l'analyse d'images médicales telles que l'IRM ou le scanner, la segmentation panoptique permet de différencier différents types de tissus ("choses") tout en identifiant des structures spécifiques telles que des tumeurs ou des cellules individuelles ("choses"). Cela permet de poser des diagnostics plus précis, de faciliter la planification chirurgicale et de suivre l'évolution de la maladie. Vous pouvez en savoir plus sur des tâches connexes telles que l'utilisation de YOLO11 pour la détection des tumeurs.
  • Robotique: Pour que les robots interagissent efficacement avec leur environnement, ils doivent comprendre à la fois la disposition générale (murs, sols) et les objets spécifiques qu'ils peuvent manipuler (outils, pièces). La segmentation panoptique fournit cette vue unifiée, améliorant la navigation et l'interaction homme-robot dans des environnements complexes tels que les entrepôts et les usines. En savoir plus sur le rôle de l'IA dans la robotique.
  • Réalité augmentée (RA) : Les applications de réalité augmentée utilisent la segmentation panoptique pour mélanger de manière transparente des objets virtuels avec le monde réel. En comprenant l'emplacement des surfaces d'arrière-plan et des objets de premier plan, les systèmes de RA peuvent placer le contenu virtuel de manière réaliste, en gérant correctement les occlusions. Cela a conduit à des avancées majeures dans la technologie de la réalité augmentée.
  • Analyse d'images satellites: Cette technique est utilisée pour la cartographie détaillée de l'occupation du sol, en faisant la distinction entre les types de grandes surfaces comme les forêts ou les plans d'eau ("choses") et les structures individuelles comme les bâtiments ou les véhicules ("objets"). Des agences gouvernementales comme l'USGS utilisent ces données pour la surveillance de l'environnement et la planification urbaine.

Modèles et mise en œuvre

Les modèles de segmentation panoptique sont généralement construits à l'aide de cadres d'apprentissage profond tels que PyTorch et entraînés sur des ensembles de données à grande échelle tels que COCO-Panoptic et Cityscapes. Alors que les modèles Ultralytics tels que YOLO11 offrent des performances de pointe dans des tâches de base telles que la détection d'objets et la segmentation d'instances, qui sont des éléments de base essentiels, la segmentation panoptique représente le niveau suivant de la compréhension intégrée de la scène. Au fur et à mesure que la recherche se poursuit dans des institutions telles que Google AI et Meta AI, les capacités de ces modèles globaux s'améliorent constamment, ouvrant la voie à des systèmes d'intelligence artificielle plus sophistiqués et plus conscients. Vous pouvez gérer et former des modèles pour des tâches connexes à l'aide de plateformes comme Ultralytics HUB.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers