Découvrez comment la segmentation interactive utilise des invites « human-in-the-loop » pour isoler des objets. Découvrez comment utiliser Ultralytics et la Ultralytics pour réaliser des tâches.
La segmentation interactive est une approche hautement collaborative de la vision par ordinateur dans laquelle un utilisateur humain fournit des données en continu ou ponctuelles — telles que des clics, des cadres de sélection ou des invites textuelles — afin de guider un modèle d'IA dans l'isolation d'objets spécifiques au sein d'une image. Contrairement aux méthodes entièrement automatisées, cette technique impliquant une intervention humaine permet aux utilisateurs de définir exactement ce qui doit être segmenté, ce qui la rend particulièrement utile lorsqu'il s'agit de données visuelles ambiguës, d'objets qui se chevauchent ou de classes inconnues. Au cours des dernières années, l'introduction de modèles fondamentaux a considérablement amélioré la vitesse et la précision de ce processus, en faisant un outil essentiel pour l' annotation de données et l'imagerie de précision.
Fondamentalement, le flux de travail repose sur une segmentation par prompt, dans laquelle le modèle interprète les instructions de l'utilisateur pour générer un masque au pixel près. Un utilisateur peut effectuer un clic « positif » sur l'objet au premier plan qu'il souhaite sélectionner et un clic « négatif » sur les zones d'arrière-plan qu'il souhaite exclure. Des modèles avancés tels que le Segment Anything Model (SAM) et ses successeurs, Meta SAM , vont plus loin en acceptant divers types de gestes [1], des cadres de sélection et même des descriptions textuelles pour ancrer la recherche visuelle. Le modèle calcule la limite optimale à partir de ces indications, et l’ utilisateur peut affiner le masque de manière itérative à l’aide de clics supplémentaires jusqu’à obtenir la précision souhaitée.
La segmentation interactive transforme les processus de travail dans de nombreux secteurs en alliant l'expertise humaine à l'efficacité de l'IA.
Bien que ces deux concepts impliquent la séparation d'objets au niveau du pixel, ils répondent à des objectifs opérationnels différents. La segmentation d'instances est généralement un processus entièrement automatisé dans lequel un modèle, tel que Ultralytics , détecte et délimite des classes prédéfinies (par exemple, « voiture », « personne », « chien ») sans intervention de l'utilisateur. Pour en savoir plus sur son fonctionnement, consultez notre guide sur la segmentation d'instances.
À l'inverse, la segmentation interactive ne repose pas strictement sur des classes prédéfinies. Elle est indépendante des classes, ce qui signifie qu'elle segmente tout ce que l'utilisateur désigne, ce qui en fait une solution idéale pour les chaînes de traitement d'apprentissage actif où de nouveaux objets doivent être rapidement annotés et ajoutés à des ensembles de données personnalisés à l'aide d'outils tels que la Ultralytics .
Vous pouvez facilement mettre en œuvre la segmentation interactive dans vos propres projets à l'aide de
PyTorch et le ultralytics Python . Dans cet
exemple, nous utilisons FastSAM pour segment objet spécifique en
affichant une invite de cadre de sélection.
from ultralytics import FastSAM
# Load a pretrained FastSAM model
model = FastSAM("FastSAM-s.pt")
# Perform interactive segmentation using a bounding box prompt [x1, y1, x2, y2]
results = model("path/to/image.jpg", bboxes=[100, 100, 300, 300])
# Display the segmented result on screen
results[0].show()
Cet extrait montre comment une simple instruction spatiale guide directement le modèle pour isoler la zone d'intérêt, simplifiant ainsi les tâches complexes de segmentation d'images avec un minimum de code.


Commencez votre parcours avec l'avenir de l'apprentissage automatique