Découvrez la segmentation panoptique pour unifier la segmentation sémantique et la segmentation d'instances. Découvrez comment Ultralytics offre une compréhension précise des scènes pour les projets d'IA.
La segmentation panoptique est une tâche complète de vision par ordinateur (CV) qui unifie deux formes distinctes d'analyse d'images : la segmentation sémantique et la segmentation d'instances. Alors que les méthodes traditionnelles traitent ces tâches séparément, soit en classant de manière générale les régions d'arrière-plan comme « ciel » ou « herbe », soit en détectant des objets spécifiques comme « voiture » ou « personne », la segmentation panoptique les combine dans un cadre unique et cohérent. Cette approche attribue une valeur unique à chaque pixel d'une image, fournissant une compréhension complète de la scène qui distingue les objets comptables (appelés « choses ») des zones d'arrière-plan amorphes (appelées « éléments »). En veillant à ce que chaque pixel soit pris en compte et classé, cette technique imite la perception visuelle humaine de manière plus fidèle que les méthodes de détection isolées.
Pour bien comprendre la segmentation panoptique, il est utile de saisir la dichotomie des informations visuelles qu'elle traite. La tâche divise le monde visuel en deux catégories principales :
Cette distinction est cruciale pour les systèmes avancés d'intelligence artificielle (IA), leur permettant de naviguer dans des environnements tout en interagissant simultanément avec des objets spécifiques.
Les architectures modernes de segmentation panoptique utilisent généralement une puissante infrastructure d'apprentissage profond (DL), telle qu'un réseau neuronal convolutif (CNN) ou un transformateur de vision (ViT), pour extraire des représentations riches des caractéristiques d'une image. Le réseau se divise généralement en deux branches ou « têtes » :
Un module de fusion ou une étape de post-traitement résout ensuite les conflits entre ces sorties, par exemple en déterminant si un pixel appartient à une instance « personne » ou au mur « arrière-plan » derrière elle, afin de produire une carte de segmentation panoptique finale sans chevauchement.
La nature holistique de la segmentation panoptique la rend indispensable pour les industries où la sécurité et le contexte sont primordiaux.
Bien que la formation panoptique complète puisse être complexe, les développeurs peuvent obtenir une segmentation d'instancede haute précision (un élément essentiel du puzzle panoptique) à l'aide Ultralytics . Ce modèle de pointe offre des performances en temps réel et est optimisé pour un déploiement en périphérie.
Python suivant montre comment charger un modèle de segmentation pré-entraîné et exécuter une inférence pour isoler des objets distincts :
from ultralytics import YOLO
# Load the YOLO26 segmentation model
model = YOLO("yolo26n-seg.pt")
# Run inference on an image to segment individual instances
# The model identifies 'things' and generates pixel-perfect masks
results = model("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with overlaid segmentation masks
results[0].show()
Pour les équipes qui cherchent à gérer leurs données d'entraînement et à automatiser le processus d'annotation, la Ultralytics fournit une suite d'outils pour la gestion des ensembles de données et l'entraînement des modèles. Une annotation de haute qualité est cruciale pour les tâches de segmentation, car les modèles ont besoin d'étiquettes précises au niveau des pixels pour apprendre efficacement.
Il est essentiel de comprendre les nuances entre les différents types de segmentation afin de choisir le modèle le mieux adapté à votre projet :
Pour en savoir plus sur les formats de données utilisés dans ces tâches, vous pouvez consulter la documentationCOCO , qui est une référence standard pour mesurer les performances de segmentation.