Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant

Comprendre la segmentation des concepts promptables

Découvrez la segmentation conceptuelle promptable, en quoi elle diffère des méthodes traditionnelles et comment des modèles connexes tels que YOLOE-26 permettent des capacités de vocabulaire ouvert.

La vision artificielle progresse rapidement et est largement utilisée pour analyser des images et des vidéos dans des environnements réels. Par exemple, des applications allant des systèmes de gestion du trafic à l'analyse commerciale sont intégrées à des modèles de vision par ordinateur.

Dans bon nombre de ces applications, les modèles de vision, tels que les modèles de détection d'objets, sont entraînés à reconnaître un ensemble prédéfini d'objets, notamment des véhicules, des personnes et des équipements. Pendant l'entraînement, ces modèles sont exposés à de nombreux exemples étiquetés afin qu'ils puissent apprendre à reconnaître chaque objet et à le distinguer des autres dans une scène.

Pour les tâches de segmentation, les modèles vont encore plus loin en produisant des contours précis au niveau des pixels autour de ces objets. Cela permet aux systèmes de comprendre exactement où chaque objet se trouve dans une image.

Cela fonctionne bien tant que le système n'a besoin de reconnaître que ce pour quoi il a été formé. Cependant, dans les environnements réels, c'est rarement le cas. 

Les scènes visuelles sont généralement dynamiques. De nouveaux objets et concepts visuels apparaissent, les conditions changent et les utilisateurs souhaitent souvent segment qui ne faisaient pas partie de la configuration d'apprentissage initiale.

Ces limites sont particulièrement évidentes en matière de segmentation. À mesure que l'IA visuelle continue d'évoluer, il existe un besoin croissant de modèles de segmentation plus flexibles, capables de s'adapter à de nouveaux concepts sans nécessiter de réentraînement répété. C'est pourquoi la segmentation conceptuelle promptable (PCS) suscite de plus en plus d'intérêt.

Au lieu de s'appuyer sur une liste fixe de catégories d'objets, les utilisateurs peuvent décrire ce qu'ils souhaitent segment texte, segment indications visuelles ou segment images d'exemple. Ces modèles peuvent ensuite identifier et segment les régions qui correspondent au concept décrit, même si ce concept n'a pas été explicitement inclus lors de l'entraînement.

Dans cet article, nous allons explorer le fonctionnement de la segmentation conceptuelle promptable, en quoi elle diffère des approches traditionnelles et où elle est utilisée aujourd'hui.

Qu'est-ce que la segmentation conceptuelle promptable ?

Dans la plupart des cas, les modèles de segmentation sont entraînés à reconnaître une courte liste de types d'objets. Cela fonctionne bien lorsqu'un système d'IA visuelle n'a besoin que de detect segment ensemble spécifique d'objets.

Dans les applications réelles, cependant, les scènes visuelles sont dynamiques. De nouveaux objets apparaissent, les exigences des tâches changent et les utilisateurs doivent souvent segment qui n'étaient pas inclus dans l'ensemble d'étiquettes d'origine. Pour faire face à ces situations, il faut généralement collecter de nouvelles données et annotations de haute qualité et réentraîner le modèle, ce qui augmente les coûts et ralentit le déploiement.

La segmentation conceptuelle instantanée résout ce problème en permettant aux utilisateurs d'indiquer au modèle ce qu'ils recherchent, plutôt que de choisir parmi une liste fixe d'étiquettes. Les utilisateurs décrivent l'objet ou l'idée qu'ils recherchent, et le modèle met en évidence toutes les zones correspondantes dans l'image. Il est ainsi beaucoup plus facile de relier l'intention de l'utilisateur aux pixels réels d'une image.

Fig. 1. Aperçu de l'utilisation des invites conceptuelles pour la segmentation (Source)

Segmentation guidée à l'aide de différents types d'invites

Les modèles qui prennent en charge la segmentation de concepts promptables sont flexibles, car ils peuvent accepter différents types d'entrées. En d'autres termes, il existe plusieurs façons d'indiquer au modèle ce qu'il doit rechercher, par exemple à l'aide de descriptions textuelles, d'indices visuels ou d'images d'exemple.

Voici un aperçu plus détaillé de chaque approche :

  • Suggestions de texte : de courtes expressions telles que « bus scolaire » ou « région tumorale » peuvent être utilisées pour décrire le concept à segment. Le modèle interprète la signification des mots et identifie les régions correspondantes.
  • Indications visuelles : ces indications utilisent des points, des encadrés ou des croquis approximatifs à l'intérieur de l'image comme repères. Ces indices guident le regard et aident à définir les contours finaux.
  • Exemples d'images : des images de référence ou de petits recadrages représentent le concept qui nous intéresse. Le modèle recherche des régions visuellement similaires et les segmente en fonction de leur apparence visuelle.

La différence entre le PCS et la segmentation traditionnelle

Avant d'aborder le fonctionnement de la segmentation conceptuelle promptable, comparons-la d'abord à diverses méthodes traditionnelles de segmentation d'objets.

Le PCS permet d'utiliser des modèles à vocabulaire ouvert et pilotés par des invites. Il peut fonctionner avec de nouvelles idées décrites à travers des invites, ce qui n'est pas le cas de la segmentation traditionnelle. Il existe plusieurs types d'approches de segmentation traditionnelle, chacune avec ses propres hypothèses et limites.

Voici un aperçu des principaux types de segmentation traditionnelle :

  • Segmentation sémantique: chaque pixel de l'image est étiqueté comme appartenant à une catégorie telle que route, bâtiment ou personne. Tous les pixels portant la même étiquette sont regroupés, de sorte que le modèle ne sépare pas les instances d'objets individuels.
  • Segmentation d'instance: le modèle identifie et segmente les objets individuels, de sorte que deux personnes ou deux voitures sont traitées comme des éléments distincts. 
  • Segmentation panoptique: cette technique combine la segmentation sémantique et la segmentation par instance afin de fournir une vue complète de la scène, couvrant à la fois les régions d'arrière-plan et les objets individuels. 

Toutes ces approches s'appuient sur une liste prédéfinie de catégories d'objets. Elles fonctionnent bien dans ce cadre, mais ne gèrent pas très bien les concepts qui s'en écartent. Lorsqu'un nouvel objet spécifique doit être segmenté, des données d'entraînement supplémentaires et un ajustement du modèle sont généralement nécessaires.

PCS vise à changer cela. Au lieu d'être enfermé dans des catégories prédéfinies, il vous permet de décrire ce que vous souhaitez segment une image au moment de l'inférence.

L'évolution des modèles PCS

Ensuite, voyons comment les modèles de segmentation ont évolué vers la segmentation de concepts promptable.

Un modèle de base populaire qui a marqué un changement dans la segmentation était SAM, ou Segment Anything Model (modèle de segmentation de tout). Il a été introduit en 2023. Au lieu de s'appuyer sur des catégories d'objets prédéfinies, SAM aux utilisateurs de guider la segmentation à l'aide de repères visuels simples tels que des points ou des cadres de sélection. 

Avec SAM, les utilisateurs n'avaient plus besoin de sélectionner une étiquette. Il leur suffisait d'indiquer où se trouvait un objet, et le modèle générait un masque pour celui-ci. Cela rendait la segmentation plus flexible, mais les utilisateurs devaient toujours indiquer au modèle où chercher. 

SAM , sorti en 2024, s'est appuyé sur cette idée pour traiter des scènes plus complexes et étendre la segmentation par invite à la vidéo. Il a amélioré la robustesse dans différentes conditions d'éclairage, formes d'objets et mouvements, tout en continuant à s'appuyer principalement sur des invites visuelles pour guider la segmentation.

Le modèle SAM est la dernière étape de cette évolution. Lancé l'année dernière, il s'agit d'un modèle unifié qui combine la compréhension visuelle et le guidage linguistique, permettant ainsi un comportement cohérent dans les tâches de segmentation d'images et de vidéos. 

Avec SAM , les utilisateurs ne sont pas limités à pointer ou dessiner des invites. Ils peuvent plutôt décrire ce qu'ils souhaitent segment texte, et le modèle recherche dans l'image ou les images vidéo les zones qui correspondent à cette description. 

La segmentation est guidée par des concepts plutôt que par des catégories d'objets fixes, ce qui favorise l'utilisation d'un vocabulaire ouvert dans différentes situations et au fil du temps. En fait, SAM fonctionne sur un vaste espace conceptuel appris qui s'appuie sur une ontologie dérivée de sources telles que Wikidata et enrichie par des données d'entraînement à grande échelle.

Fig. 2. Exemple d'invite SAM et de segmentation d'une seule image (Source)

Par rapport aux versions précédentes qui reposaient principalement sur des indications géométriques, SAM représente une avancée vers une segmentation plus flexible et axée sur les concepts. Cela le rend mieux adapté aux applications du monde réel où les objets ou les idées d'intérêt peuvent changer et ne peuvent pas toujours être définis à l'avance.

Explorer le fonctionnement de la segmentation visuelle promptable

Alors, comment fonctionne la segmentation conceptuelle instantanée ? Elle s'appuie sur de grands modèles de vision et de langage visuel pré-entraînés, qui sont des modèles entraînés sur des collections massives d'images et, dans de nombreux cas, sur des textes associés. Cet entraînement leur permet d'apprendre des modèles visuels généraux et la signification sémantique.

La plupart des modèles PCS utilisent des architectures basées sur des transformateurs, qui traitent une image entière à la fois pour comprendre comment les différentes régions sont liées entre elles. Un transformateur visuel extrait les caractéristiques visuelles de l'image, tandis qu'un encodeur de texte convertit les mots en représentations numériques que le modèle peut traiter.

Au cours de l'entraînement, ces modèles peuvent apprendre à partir de différents types de supervision, notamment des masques au niveau des pixels qui définissent les limites exactes des objets, des cadres de sélection qui localisent approximativement les objets et des étiquettes au niveau de l'image qui décrivent ce qui apparaît dans une image. L'entraînement à l'aide de différents types de données étiquetées aide le modèle à saisir à la fois les détails fins et les concepts visuels plus larges.

Au moment de l'inférence, c'est-à-dire lorsque le modèle est effectivement utilisé pour faire des prédictions, PCS suit un processus guidé par des invites. L'utilisateur fournit des indications sous forme de descriptions textuelles, d'indices visuels tels que des points ou des encadrés, ou d'images d'exemple. Le modèle encode à la fois l'invite et l'image dans une représentation interne partagée ou des intégrations, et identifie les régions qui correspondent au concept décrit.

Un décodeur de masque convertit ensuite cette représentation partagée en masques de segmentation précis au niveau des pixels. Comme le modèle relie les caractéristiques visuelles à la signification sémantique, il peut segment concepts même s'ils n'ont pas été explicitement inclus pendant l'entraînement.

De plus, il est souvent possible d'affiner le résultat en ajustant l'invite ou en ajoutant des indications supplémentaires, ce qui aide le modèle à gérer des scènes complexes ou ambiguës. Ce processus itératif facilite l'optimisation pratique lors du déploiement.

Les modèles de segmentation de concepts promptables sont généralement évalués en fonction de leur capacité segment des concepts segment et de leur robustesse dans différentes scènes. Les benchmarks se concentrent souvent sur la qualité du masque, la généralisation et l'efficacité computationnelle, reflétant ainsi les exigences réelles de déploiement.

Cas d'utilisation concrets du PCS

Voyons maintenant où la segmentation conceptuelle promptable est déjà utilisée et commence à avoir un impact réel.

Segmentation flexible d'images pour l'imagerie médicale

L'imagerie médicale implique de nombreuses structures biologiques, maladies et types de scans, et de nouveaux cas apparaissent chaque jour. Les modèles de segmentation traditionnels ont du mal à suivre cette diversité. 

Le PCS s'intègre naturellement dans cet espace, car il permet aux cliniciens de décrire ce qu'ils veulent trouver au lieu de choisir parmi une liste courte et rigide. Grâce à des phrases textuelles ou des invites visuelles, le PCS peut être utilisé pour segment directement segment ou les zones d'intérêt, sans avoir à réentraîner le modèle pour chaque nouvelle tâche. Cela facilite la gestion des divers besoins cliniques, réduit le besoin de dessiner manuellement des masques et fonctionne avec de nombreux types d'imagerie.

Un excellent exemple est MedSAM-3, qui adapte l'architecture SAM pour les PCS à saisie textuelle dans l'imagerie médicale. Ce modèle peut être alimenté par des termes anatomiques et pathologiques explicites, tels que des noms d'organes comme le foie ou les reins et des concepts liés aux lésions comme les tumeurs ou les lésions. À partir d'une saisie, le modèle segmente directement la région correspondante dans l'image médicale.

MedSAM-3 intègre également des modèles linguistiques multimodaux de grande taille (MLLM ou LLM multimodaux), capables d'analyser à la fois du texte et des images. Ces modèles fonctionnent selon un principe d'agent en boucle, où les résultats sont affinés de manière itérative afin d'améliorer la précision dans les cas les plus complexes.

Fig. 3. Pipeline MedSAM-3 pour la segmentation de tumeurs à partir de textes dans des images médicales (Source)

MedSAM-3 fonctionne efficacement avec les données issues de radiographies, d'IRM, de tomodensitométries, d'échographies et de vidéos, soulignant ainsi comment le PCS peut permettre des flux de travail d'imagerie médicale plus flexibles et plus efficaces dans des contextes cliniques réels.

Segmentation adaptative pour la chirurgie robotique et l'automatisation

La chirurgie robotique s'appuie sur des systèmes de vision pour track et comprendre les scènes chirurgicales qui évoluent rapidement. Les instruments se déplacent rapidement, l'éclairage varie et de nouveaux outils peuvent apparaître à tout moment, ce qui rend difficile le maintien de systèmes d'étiquetage prédéfinis.

Grâce au PCS, les robots peuvent track , guider les caméras et suivre les étapes chirurgicales en temps réel. Cela réduit l'étiquetage manuel et facilite l'adaptation des systèmes à différentes procédures. Les chirurgiens ou les systèmes automatisés peuvent utiliser des invites textuelles telles que « pince », « scalpel » ou « outil caméra » pour indiquer ce qui doit être segmenté dans une image.

Fig. 4. Segmentation des instruments chirurgicaux utilisés lors d'une chirurgie robotique (Source)

Segmentation à vocabulaire ouvert avec Ultralytics

Un autre modèle de pointe intéressant lié à la segmentation de concepts promptables est notre Ultralytics . Notre modèle apporte une segmentation à vocabulaire ouvert et pilotée par des prompts à la familleYOLO Ultralytics YOLO .

YOLOE-26 est basé sur l'architecture Ultralytics et prend en charge la segmentation d'instances à vocabulaire ouvert. YOLOE-26 permet aux utilisateurs de guider la segmentation de plusieurs façons. 

Il prend en charge les invites textuelles, où de courtes phrases visuelles peuvent spécifier l'objet cible, ainsi que les invites visuelles, qui fournissent des indications supplémentaires basées sur des repères visuels. De plus, YOLOE-26 comprend un mode sans invite pour l'inférence sans apprentissage, où le modèle détecte et segmente les objets à partir d'un vocabulaire intégré sans nécessiter d'invites de la part de l'utilisateur.

YOLOE-26 est idéal pour des applications telles que l'analyse vidéo, la perception robotique et les systèmes basés sur la périphérie, où les catégories d'objets peuvent changer, mais où une faible latence et un débit fiable restent essentiels. Il est également particulièrement utile pour l'étiquetage des données et la curation des ensembles de données, car il rationalise les flux de travail en automatisant certaines parties du processus d'annotation.

Avantages et inconvénients de la segmentation conceptuelle promptable

Voici quelques-uns des principaux avantages liés à l'utilisation de la segmentation conceptuelle promptable :

  • Itération et prototypage plus rapides : les nouvelles tâches de segmentation peuvent être testées rapidement en modifiant les invites plutôt qu'en reconstruisant des ensembles de données ou en réentraînant des modèles, ce qui accélère l'expérimentation et le développement.
  • Adaptabilité à différents domaines : le même modèle PCS peut souvent être appliqué à différents domaines, tels que l'imagerie médicale, la robotique ou l'analyse vidéo, avec des modifications minimes du flux de travail.
  • Raffinement interactif : les utilisateurs peuvent ajuster les invites de manière itérative ou ajouter des indications pour améliorer les résultats, ce qui facilite le traitement des scènes ambiguës ou des cas limites sans avoir à procéder à un nouveau apprentissage.

Bien que le PCS présente des avantages évidents, voici quelques limites à prendre en considération :

  • Sensibilité aux invites : de petits changements dans la façon dont une invite est rédigée ou fournie peuvent affecter le résultat. Des invites trop vagues ou trop spécifiques peuvent entraîner une segmentation incomplète ou incorrecte.
  • Comportement moins prévisible : comme le modèle interprète les invites plutôt que de sélectionner parmi des étiquettes fixes, les résultats peuvent varier davantage selon les scènes et les entrées, ce qui peut poser problème pour les pipelines étroitement contrôlés.
  • Interprétation ambiguë des concepts : certains concepts sont subjectifs ou vaguement définis, ce qui peut entraîner des résultats de segmentation incohérents entre les utilisateurs ou entre les images.
  • Fiabilité limitée pour les cibles très spécifiques: les modèles basés sur des invites sont généralement moins fiables pour les tâches étroitement définies et spécifiques à un cas particulier, telles que la détection de défauts, qui nécessitent une identification précise et cohérente de caractéristiques subtiles.

Choisir entre la segmentation instantanée et la segmentation traditionnelle

Lorsque vous explorez la segmentation promptable, vous vous demandez peut-être à quelles applications elle convient le mieux et dans quels cas un modèle de vision par ordinateur traditionnel tel que YOLO26 est plus adapté au problème que vous essayez de résoudre. La segmentation promptable fonctionne bien pour les objets généraux, mais elle n'est pas adaptée aux cas d'utilisation qui nécessitent des résultats très précis et cohérents.

La détection des défauts en est un bon exemple. Dans le secteur manufacturier, les défauts sont souvent minuscules et subtils, tels que de petites rayures, des bosses, des désalignements ou des irrégularités de surface. Ils peuvent également varier considérablement en fonction des matériaux, de l'éclairage et des conditions de production. 

Ces problèmes sont difficiles à décrire à l'aide d'une simple invite et encore plus difficiles à detect pour un modèle polyvalent. Dans l'ensemble, les modèles basés sur des invites ont tendance à passer à côté de défauts ou à produire des résultats instables, tandis que les modèles spécialement entraînés sur des données de défauts sont beaucoup plus fiables pour les systèmes d'inspection réels.

Principaux points à retenir

La segmentation conceptuelle promptable facilite l'adaptation des systèmes de vision au monde réel, où de nouveaux objets et concepts apparaissent sans cesse. Au lieu d'être limités à des étiquettes fixes, les utilisateurs peuvent simplement décrire ce qu'ils souhaitent segment laisser le modèle faire le reste, ce qui permet de gagner du temps et de réduire le travail manuel. Bien qu'elle présente encore certaines limites, la PCS est déjà en train de changer la façon dont la segmentation est utilisée dans la pratique et devrait devenir un élément central des futurs systèmes de vision.

Pour en savoir plus sur l'IA, rendez-vous sur notre référentiel GitHub et rejoignez notre communauté. Consultez nos pages Solutions pour en savoir plus sur l'IA dans la robotique et la vision par ordinateur dans le secteur manufacturier. Découvrez nos options de licence pour commencer à utiliser Vision AI dès aujourd'hui !

Construisons ensemble l'avenir
de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique

Démarrer gratuitement