Découvrez les incitations visuelles pour guider les modèles d'IA à l'aide de points et de cadres. Découvrez comment Ultralytics YOLO SAM une segmentation précise et une annotation plus rapide des données.
Le prompt visuel est une technique émergente en vision par ordinateur dans laquelle les utilisateurs fournissent des repères spatiaux ou visuels, tels que des points, des cadres ou des gribouillis, afin d'orienter l'attention d'un modèle d'IA vers des objets ou des zones spécifiques d'une image. Contrairement à l'ingénierie de prompt traditionnelle qui repose principalement sur des descriptions textuelles, le prompt visuel permet une interaction plus précise et intuitive avec les systèmes d'intelligence artificielle (IA). Cette méthode exploite les capacités des modèles de base modernes pour effectuer des tâches telles que la segmentation et la détection sans nécessiter de formation approfondie ou de grands ensembles de données étiquetées. En « pointant » efficacement ce qui importe, les utilisateurs peuvent adapter instantanément des modèles à usage général à de nouvelles tâches, comblant ainsi le fossé entre l'intention humaine et la perception de la machine.
Fondamentalement, le guidage visuel fonctionne en injectant des informations spatiales directement dans le pipeline de traitement du modèle. Lorsqu'un utilisateur clique sur un objet ou dessine un cadre, ces entrées sont converties en intégrations basées sur des coordonnées que le réseau neuronal intègre aux caractéristiques de l'image. Ce processus est au cœur des architectures interactives telles que le modèle Segment Anything Model (SAM), dans lequel le modèle prédit des masques à partir de guidages géométriques.
La flexibilité des invites visuelles permet différents types d'interaction :
Des recherches récentes présentées lors de la conférence CVPR 2024 soulignent à quel point les invites visuelles réduisent considérablement le temps nécessaire à l' annotation des données, car les annotateurs humains peuvent corriger les prédictions du modèle en temps réel d'un simple clic plutôt que de tracer manuellement des polygones.
Bien que ces deux techniques visent à guider le comportement du modèle, il est important de distinguer les invites visuelles des méthodes basées sur le texte . La génération de texte en image ou la détection zéro-shot s'appuie sur le traitement du langage naturel (NLP) pour interpréter les descriptions sémantiques (par exemple, « trouver la voiture rouge »). Cependant, le langage peut être ambigu ou insuffisant pour décrire des emplacements spatiaux précis ou des formes abstraites.
Les indications visuelles permettent de lever cette ambiguïté en ancrant l'instruction dans l'espace pixel lui-même. Par exemple, dans l' analyse d'images médicales, il est beaucoup plus précis pour un radiologue de cliquer sur un nodule suspect que d'essayer de décrire ses coordonnées exactes et sa forme irrégulière par le biais d'un texte. Souvent, les flux de travail les plus performants combinent les deux approches : l'utilisation du texte pour le filtrage sémantique et les invites visuelles pour la précision spatiale, un concept connu sous le nom d' apprentissage multimodal.
La polyvalence des invites visuelles a conduit à leur adoption rapide dans divers secteurs :
Ultralytics prend en charge les flux de travail de suggestion visuelle, notamment grâce à des modèles tels que FastSAM SAM. Ces modèles permettent aux développeurs de transmettre par programmation les coordonnées de points ou de boîtes afin de récupérer des masques de segmentation.
L'exemple suivant montre comment utiliser la fonction ultralytics package pour appliquer une invite ponctuelle à une
image, demandant au modèle de segment situé à des coordonnées spécifiques.
from ultralytics import SAM
# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")
# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])
# Display the segmented result
results[0].show()
Le guidage visuel représente une évolution vers une vision par ordinateur « guidable », où les modèles ne sont plus des « boîtes noires » statiques, mais des outils interactifs. Cette capacité est essentielle pour les boucles d'apprentissage actif, où les modèles s'améliorent rapidement en intégrant les commentaires des utilisateurs.
Pour les développeurs qui souhaitent intégrer ces capacités dans la production, Ultralytics propose des outils permettant de gérer des ensembles de données et de déployer des modèles capables de traiter des entrées dynamiques. À mesure que la recherche progresse, nous nous attendons à voir une intégration encore plus étroite entre les invites visuelles et les grands modèles linguistiques (LLM), permettant ainsi aux systèmes de raisonner à partir d'entrées visuelles avec la même fluidité qu'ils traitent actuellement le texte.