Comprendre la segmentation de concepts par invite
Explore la segmentation de concepts par invite (promptable concept segmentation), en quoi elle diffère des méthodes traditionnelles et comment des modèles associés tels que YOLOE-26 permettent des capacités à vocabulaire ouvert.

L'IA visuelle progresse rapidement et est largement utilisée pour analyser des images et des vidéos dans des environnements réels. Par exemple, des applications allant des systèmes de gestion du trafic à l'analyse commerciale intègrent désormais des modèles de vision par ordinateur.
Dans nombre de ces applications, les modèles de vision, tels que les modèles de détection d'objets, sont entraînés à reconnaître un ensemble prédéfini d'objets, notamment des véhicules, des personnes et des équipements. Lors de l'entraînement, ces modèles sont exposés à de nombreux exemples étiquetés afin d'apprendre l'apparence de chaque objet et comment le distinguer des autres dans une scène.
Pour les tâches de segmentation, les modèles vont plus loin en produisant des contours précis au niveau du pixel autour de ces objets. Cela permet aux systèmes de comprendre exactement où chaque objet est situé dans une image.
Cela fonctionne bien tant que le système n'a besoin de reconnaître que ce sur quoi il a été entraîné. Cependant, dans les environnements réels, c'est rarement le cas.
Les scènes visuelles sont généralement dynamiques. De nouveaux objets et concepts visuels apparaissent, les conditions changent et les utilisateurs souhaitent souvent segmenter des objets qui ne faisaient pas partie de la configuration d'entraînement initiale.
Ces limites sont particulièrement évidentes en matière de segmentation. À mesure que l'IA visuelle continue d'évoluer, le besoin de modèles de segmentation plus flexibles, capables de s'adapter à de nouveaux concepts sans réentraînement répété, se fait sentir. C'est pourquoi la segmentation par concepts invité (PCS) suscite de l'intérêt.
Au lieu de dépendre d'une liste fixe de catégories d'objets, tu peux décrire ce que tu souhaites segmenter à l'aide de texte, d'invites visuelles ou d'exemples d'images. Ces modèles peuvent ensuite identifier et segmenter toutes les régions correspondant au concept décrit, même si ce concept n'était pas explicitement inclus lors de l'entraînement.
Dans cet article, nous explorerons le fonctionnement de la segmentation par concepts invité, en quoi elle diffère des approches traditionnelles et où elle est utilisée aujourd'hui.
Link to this sectionQu'est-ce que la segmentation par concepts invité ?#
Dans la plupart des cas, les modèles de segmentation sont entraînés à reconnaître une courte liste de types d'objets. Cela fonctionne bien lorsqu'un système d'IA visuelle n'a besoin de détecter et segmenter qu'un ensemble spécifique d'objets.
Dans les applications réelles, cependant, les scènes visuelles sont dynamiques. De nouveaux objets apparaissent, les exigences changent et les utilisateurs ont souvent besoin de segmenter des concepts qui n'étaient pas inclus dans l'ensemble d'étiquettes original. Supporter ces situations signifie généralement collecter de nouvelles données et annotations de haute qualité, puis réentraîner le modèle, ce qui augmente les coûts et ralentit le déploiement.
La segmentation par concepts invité résout ce problème en laissant les utilisateurs indiquer au modèle ce qu'il doit rechercher au lieu de choisir parmi une liste fixe d'étiquettes. Tu décris l'objet ou l'idée que tu recherches, et le modèle met en évidence toutes les zones correspondantes dans l'image. Cela facilite grandement la connexion entre ton intention et les pixels réels d'une image.

Fig 1. Aperçu de l'utilisation d'invites de concept pour la segmentation (Source)
Link to this sectionGuider la segmentation avec différents types d'invites#
Les modèles qui prennent en charge la segmentation par concepts invité sont flexibles car ils peuvent accepter différents types d'entrées. En d'autres termes, il existe plusieurs façons d'indiquer au modèle ce qu'il doit chercher, comme des descriptions textuelles, des indices visuels ou des exemples d'images.
Voici un examen plus approfondi de chaque approche :
- Invites textuelles : Des expressions courtes comme « bus scolaire » ou « région tumorale » peuvent être utilisées pour décrire le concept à segmenter. Le modèle interprète le sens des mots et identifie les régions correspondantes.
- Invites visuelles : Ces invites utilisent des points, des boîtes ou des croquis rapides à l'intérieur de l'image comme indices. Ces repères guident la recherche et aident à définir le contour final.
- Exemples d'images : Des images de référence ou de petites découpes représentent le concept d'intérêt. Le modèle recherche des régions visuellement similaires et les segmente en fonction de leur apparence visuelle.
Link to this sectionLa différence entre la PCS et la segmentation traditionnelle#
Avant d'aborder le fonctionnement de la segmentation par concepts invité, comparons-la d'abord à diverses méthodes de segmentation d'objets traditionnelles.
La PCS permet de créer des modèles à vocabulaire ouvert et basés sur des invites. Elle peut fonctionner avec de nouvelles idées décrites par des invites, ce que la segmentation traditionnelle ne peut pas faire. Il existe plusieurs types d'approches de segmentation traditionnelle, chacune avec ses propres hypothèses et limites.
Voici un aperçu de certains types clés de segmentation traditionnelle :
- Segmentation sémantique : Chaque pixel de l'image est étiqueté comme faisant partie d'une catégorie telle que route, bâtiment ou personne. Tous les pixels ayant la même étiquette sont regroupés, donc le modèle ne sépare pas les instances d'objets individuels.
- Segmentation d'instance : Le modèle identifie et segmente les objets individuels, de sorte que deux personnes ou deux voitures sont traitées comme des éléments distincts.
- Segmentation panoptique : Cette technique combine la segmentation sémantique et d'instance pour offrir une vue complète de la scène, couvrant à la fois les régions d'arrière-plan et les objets individuels.
Toutes ces approches reposent sur une liste prédéfinie de catégories d'objets. Elles fonctionnent bien dans ce cadre, mais ne gèrent pas très bien les concepts qui en sortent. Lorsqu'un nouvel objet spécifique doit être segmenté, des données d'entraînement supplémentaires et un réglage fin du modèle sont généralement nécessaires.
La PCS vise à changer cela. Au lieu d'être enfermé dans des catégories prédéfinies, elle te permet de décrire ce que tu souhaites segmenter dans une image au moment de l'inférence.
Link to this sectionL'évolution des modèles de PCS#
Ensuite, voyons comment les modèles de segmentation ont évolué vers la segmentation par concepts invité.
Un modèle de fondation populaire qui a marqué un tournant dans la segmentation est SAM, ou Segment Anything Model. Il a été introduit en 2023. Au lieu de s'appuyer sur des catégories d'objets prédéfinies, SAM permettait aux utilisateurs de guider la segmentation à l'aide de simples invites visuelles telles que des points ou des boîtes englobantes.
Avec SAM, les utilisateurs n'avaient plus besoin de sélectionner une étiquette. Ils pouvaient simplement indiquer où se trouvait un objet, et le modèle générait un masque pour celui-ci. Cela a rendu la segmentation plus flexible, mais les utilisateurs devaient encore montrer au modèle où regarder.
SAM 2, publié en 2024, a développé cette idée en gérant des scènes plus complexes et en étendant la segmentation par invites aux vidéos. Il a amélioré la robustesse face à différentes conditions d'éclairage, formes d'objets et mouvements, tout en continuant à s'appuyer principalement sur des invites visuelles pour guider la segmentation.
Le modèle SAM 3 est la dernière étape de cette évolution. Publié l'année dernière, il s'agit d'un modèle unifié qui combine compréhension visuelle et guidage linguistique, permettant un comportement cohérent sur les tâches de segmentation d'images et de vidéos.
Avec SAM 3, tu n'es plus limité aux invites par point ou par dessin. Au lieu de cela, tu peux décrire ce que tu souhaites segmenter à l'aide de texte, et le modèle recherche dans les cadres d'image ou vidéo les régions qui correspondent à cette description.
La segmentation est guidée par des concepts plutôt que par des catégories d'objets fixes, prenant en charge un vocabulaire ouvert sur différentes scènes et au fil du temps. En fait, SAM 3 fonctionne sur un vaste espace conceptuel appris, ancré dans une ontologie dérivée de sources telles que Wikidata et étendue grâce à des données d'entraînement à grande échelle.

Fig 2. Un exemple d'invites pour SAM 3 et de segmentation d'une seule image (Source)
Par rapport aux versions antérieures basées principalement sur des invites géométriques, SAM 3 représente une étape vers une segmentation plus flexible et axée sur les concepts. Cela le rend mieux adapté aux applications réelles où les objets ou les idées d'intérêt peuvent changer et ne peuvent pas toujours être définis à l'avance.
Link to this sectionExplorer le fonctionnement de la segmentation visuelle par invites#
Alors, comment fonctionne la segmentation par concepts invité ? Elle s'appuie sur de grands modèles de vision pré-entraînés et des modèles de vision-langage, qui sont des modèles entraînés sur des collections massives d'images et, dans de nombreux cas, de textes associés. Cet entraînement leur permet d'apprendre des modèles visuels généraux et des significations sémantiques.
La plupart des modèles PCS utilisent des architectures basées sur des Transformer, qui traitent une image entière à la fois pour comprendre comment différentes régions se rapportent les unes aux autres. Un Transformer de vision extrait des caractéristiques visuelles de l'image, tandis qu'un encodeur de texte convertit les mots en représentations numériques que le modèle peut traiter.
Pendant l'entraînement, ces modèles peuvent apprendre à partir de différents types de supervision, notamment des masques au niveau du pixel qui définissent les limites exactes des objets, des boîtes englobantes qui localisent approximativement les objets et des étiquettes au niveau de l'image qui décrivent ce qui apparaît. L'entraînement utilisant différents types de données étiquetées aide le modèle à capturer à la fois les détails fins et les concepts visuels plus larges.
Au moment de l'inférence, c'est-à-dire quand le modèle est utilisé pour faire des prédictions, la PCS suit un processus basé sur des invites. Tu fournis des conseils par le biais de descriptions textuelles, d'indices visuels comme des points ou des boîtes, ou d'images exemples. Le modèle encode à la fois l'invite et l'image dans une représentation interne partagée ou des embeddings, et identifie les régions qui s'alignent avec le concept décrit.
Un décodeur de masque convertit ensuite cette représentation partagée en masques de segmentation précis au niveau du pixel. Étant donné que le modèle lie les caractéristiques visuelles à la signification sémantique, il peut segmenter de nouveaux concepts même s'ils n'étaient pas explicitement inclus lors de l'entraînement.
De plus, le résultat peut souvent être affiné en ajustant l'invite ou en ajoutant des conseils supplémentaires, ce qui aide le modèle à gérer des scènes complexes ou ambiguës. Ce processus itératif soutient une optimisation pratique lors du déploiement.
Les modèles de segmentation par concepts invité sont généralement évalués sur leur capacité à segmenter des concepts inédits et sur la robustesse de leurs performances dans différentes scènes. Les benchmarks se concentrent souvent sur la qualité du masque, la généralisation et l'efficacité computationnelle, reflétant les exigences de déploiement réel.
Link to this sectionCas d'utilisation réels de la PCS#
Ensuite, voyons où la segmentation par concepts invité est déjà utilisée et commence à avoir un réel impact.
Link to this sectionSegmentation d'image flexible pour l'imagerie médicale#
L'imagerie médicale implique de nombreuses structures biologiques, maladies et types de scans, et de nouveaux cas apparaissent chaque jour. Les modèles de segmentation traditionnels peinent à suivre cette variété.
La PCS s'intègre naturellement dans cet espace car elle permet aux cliniciens de décrire ce qu'ils veulent trouver au lieu de choisir parmi une liste courte et rigide. Avec des phrases textuelles ou des invites visuelles, la PCS peut être utilisée pour segmenter directement les organes ou les zones préoccupantes, sans réentraîner le modèle pour chaque nouvelle tâche. Cela facilite la gestion de besoins cliniques divers, réduit le besoin de dessin manuel de masques et fonctionne sur de nombreux types d'imagerie.
Un excellent exemple est MedSAM-3, qui adapte l'architecture SAM 3 pour la PCS basée sur des invites textuelles en imagerie médicale. Ce modèle peut être invité avec des termes anatomiques et pathologiques explicites, tels que des noms d'organes comme le foie ou le rein, et des concepts liés aux lésions comme tumeur ou lésion. Étant donné une invite, le modèle segmente directement la région correspondante dans l'image médicale.
MedSAM-3 intègre également des modèles de langage multimodaux (MLLM ou LLM multimodaux), qui peuvent raisonner à la fois sur du texte et des images. Ces modèles fonctionnent dans une configuration agent-dans-la-boucle, où les résultats sont affinés de manière itérative pour améliorer la précision dans les cas les plus difficiles.

Fig 3. Un pipeline MedSAM-3 pour la segmentation tumorale par invite textuelle dans des images médicales (Source)
MedSAM-3 affiche de bonnes performances sur les données de rayons X, IRM, scanner, échographie et vidéo, soulignant comment la PCS peut permettre des flux de travail d'imagerie médicale plus flexibles et efficaces dans des contextes cliniques réels.
Link to this sectionSegmentation adaptative pour la chirurgie robotique et l'automatisation#
La chirurgie robotique s'appuie sur des systèmes de vision pour suivre les outils et comprendre des scènes chirurgicales qui changent rapidement. Les instruments se déplacent rapidement, l'éclairage varie et de nouveaux outils peuvent apparaître à tout moment, ce qui rend les systèmes d'étiquettes prédéfinis difficiles à maintenir.
Avec la PCS, les robots peuvent suivre les outils, guider les caméras et suivre les étapes chirurgicales en temps réel. Cela réduit l'étiquetage manuel et rend les systèmes plus faciles à adapter à différentes procédures. Les chirurgiens ou les systèmes automatisés peuvent utiliser des invites textuelles telles que « pince », « scalpel » ou « outil caméra » pour indiquer ce qui doit être segmenté dans une image.

Fig 4. Segmentation d'instruments chirurgicaux utilisés pendant une chirurgie robotique (Source)
Link to this sectionSegmentation à vocabulaire ouvert avec Ultralytics YOLOE-26#
Un autre modèle de pointe intéressant lié à la segmentation par concepts invité est notre Ultralytics YOLOE-26. Notre modèle apporte la segmentation à vocabulaire ouvert et basée sur des invites à la famille de modèles Ultralytics YOLO.
YOLOE-26 est construit sur l'architecture Ultralytics YOLO26 et prend en charge la segmentation d'instance à vocabulaire ouvert. YOLOE-26 permet aux utilisateurs de guider la segmentation de plusieurs manières.
Il prend en charge les invites textuelles, où des phrases courtes et visuellement ancrées peuvent spécifier l'objet cible, ainsi que les invites visuelles, qui fournissent des conseils supplémentaires basés sur des indices d'image. De plus, YOLOE-26 inclut un mode sans invite pour l'inférence zero-shot, où le modèle détecte et segmente les objets à partir d'un vocabulaire intégré sans nécessiter d'invites de l'utilisateur.
YOLOE-26 est idéal pour des applications telles que l'analyse vidéo, la perception robotique et les systèmes basés sur la périphérie (edge), où les catégories d'objets peuvent changer mais où une faible latence et un débit fiable restent essentiels. Il est également particulièrement utile pour l'étiquetage des données et la curation de jeux de données, car il rationalise les flux de travail en automatisant des parties du processus d'annotation.
Link to this sectionAvantages et inconvénients de la segmentation par concepts invité#
Voici quelques-uns des principaux avantages de l'utilisation de la segmentation par concepts invité :
- Itération et prototypage plus rapides : De nouvelles tâches de segmentation peuvent être testées rapidement en modifiant les invites plutôt qu'en reconstruisant des jeux de données ou en réentraînant des modèles, ce qui accélère l'expérimentation et le développement.
- Adaptabilité entre les domaines : Le même modèle PCS peut souvent être appliqué à différents domaines, comme l'imagerie médicale, la robotique ou l'analyse vidéo, avec un minimum de changements dans le flux de travail.
- Affinement interactif : Les utilisateurs peuvent ajuster les invites de manière itérative ou ajouter des conseils pour améliorer les résultats, ce qui facilite la gestion de scènes ambiguës ou de cas limites sans réentraînement.
Bien que la PCS présente des avantages clairs, voici quelques limites à prendre en compte :
- Sensibilité aux invites : De petits changements dans la manière dont une invite est rédigée ou fournie peuvent affecter le résultat. Les invites trop vagues ou trop spécifiques peuvent conduire à une segmentation incomplète ou incorrecte.
- Comportement moins prévisible : Puisque le modèle interprète les invites plutôt que de choisir parmi des étiquettes fixes, les résultats peuvent varier davantage entre les scènes et les entrées, ce qui peut poser problème pour des pipelines strictement contrôlés.
- Interprétation ambiguë des concepts : Certains concepts sont subjectifs ou vaguement définis, ce qui peut entraîner des résultats de segmentation incohérents entre les utilisateurs ou entre les images.
- Fiabilité limitée pour des cibles hautement spécifiques : Les modèles basés sur des invites sont généralement moins fiables pour des tâches étroitement définies et spécifiques à une instance, comme la détection de défauts, où une identification précise et cohérente de caractéristiques subtiles est requise.
Link to this sectionChoisir entre segmentation par invites et traditionnelle#
En explorant la segmentation par invites, tu te demanderas peut-être à quelles applications elle est la mieux adaptée et quand un modèle de vision par ordinateur traditionnel comme YOLO26 est plus approprié pour le problème que tu tentes de résoudre. La segmentation par invites fonctionne bien pour les objets généraux, mais elle n'est pas adaptée aux cas d'utilisation qui nécessitent des résultats très précis et cohérents.
La détection de défauts en est un bon exemple. Dans la fabrication, les défauts sont souvent minuscules et subtils, tels que de petites rayures, bosses, désalignements ou irrégularités de surface. Ils peuvent également varier considérablement en fonction des matériaux, de l'éclairage et des conditions de production.
Ces problèmes sont difficiles à décrire avec une simple invite et encore plus difficiles à détecter de manière fiable pour un modèle polyvalent. Dans l'ensemble, les modèles basés sur des invites ont tendance à manquer les défauts ou à produire des résultats instables, tandis que les modèles entraînés spécifiquement sur des données de défauts sont beaucoup plus fiables pour les systèmes d'inspection réels.
Link to this sectionPoints clés#
La segmentation par concepts invité rend les systèmes de vision plus faciles à adapter au monde réel, où de nouveaux objets et idées apparaissent tout le temps. Au lieu d'être enfermé dans des étiquettes fixes, tu peux simplement décrire ce que tu veux segmenter et laisser le modèle faire le reste, ce qui fait gagner du temps et réduit le travail manuel. Bien qu'elle ait encore des limites, la PCS change déjà la façon dont la segmentation est utilisée en pratique et est susceptible de devenir une partie centrale des futurs systèmes de vision.
Explore davantage sur l'IA en visitant notre dépôt GitHub et en rejoignant notre communauté. Consulte nos pages de solutions pour en savoir plus sur l'IA en robotique et la vision par ordinateur dans la fabrication. Découvre nos options de licence pour te lancer dès aujourd'hui avec l'IA visuelle !






