Découvrez comment la segmentation panoptique unifie la segmentation sémantique et la segmentation d'instance pour une compréhension précise de la scène au niveau des pixels dans les applications d'IA.
La segmentation panoptique représente l'unification de deux tâches distinctes en vision par ordinateur : la segmentation sémantique et la segmentation d'instance. Alors que la segmentation sémantique attribue une étiquette de classe à chaque pixel d'une image (comme « ciel », « route » ou « herbe ») sans faire de distinction entre les objets individuels, la segmentation d'instance se concentre uniquement sur l' identification et la séparation d'objets spécifiques comptables (comme « personne », « voiture » ou « chien ») tout en ignorant l'arrière-plan. La segmentation panoptique comble cette lacune en fournissant une analyse complète de la scène où chaque pixel est classé. Elle identifie simultanément le contexte de l'arrière-plan (souvent appelé « stuff ») et délimite les objets individuels au premier plan (appelés « things »), offrant ainsi une compréhension holistique des données visuelles qui imite la perception humaine.
Pour comprendre le fonctionnement de la segmentation panoptique, il est utile d'examiner les catégories d'informations visuelles qu'elle traite. La tâche divise le monde visuel en deux types principaux d'entités :
Les architectures modernes, telles que le Vision Transformer (ViT) ou les réseaux neuronaux convolutifs (CNN) avancés, constituent l'épine dorsale de ces systèmes. Elles extraient des cartes de caractéristiques riches à partir de l'image d'entrée. Une tête panoptique traite ensuite ces caractéristiques pour produire une carte de segmentation où chaque pixel a une étiquette sémantique (à quelle classe il appartient) et un identifiant d'instance (à quel objet spécifique il appartient).
Le choix de la bonne approche dépend fortement des exigences spécifiques de votre projet de vision par ordinateur (CV).
La nature exhaustive de la segmentation panoptique la rend inestimable pour les systèmes d'intelligence artificielle (IA) complexes qui naviguent ou interagissent avec le monde physique.
Si les pipelines de formation panoptiques complets peuvent être très gourmands en ressources informatiques, obtenir une segmentation d'instance de haute qualité , composante cruciale de la compréhension panoptique, est simple avec Ultralytics . Ce modèle de pointe offre des capacités d'inférence en temps réel, permettant aux développeurs de générer efficacement des masques précis pour des objets individuels.
Python suivant montre comment charger un modèle de segmentation pré-entraîné et traiter une image afin d'isoler des objets distincts :
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to segment individual instances
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with overlaid segmentation masks
results[0].show()
Pour des workflows plus avancés, tels que la formation sur des données personnalisées comme COCO , vous pouvez utiliser Ultralytics pour gérer vos ensembles de données et la formation de vos modèles. Il est essentiel de comprendre les nuances de l'annotation des données , car les ensembles de données panoptiques nécessitent un étiquetage rigoureux de chaque pixel des images de formation. L'utilisation d'outils tels que OpenCV en conjonction avec ces modèles permet un post-traitement et une analyse puissants des cartes de segmentation résultantes.