Glossaire

Invite visuelle

Découvrez les incitations visuelles pour guider les modèles d'IA à l'aide de points et de cadres. Découvrez comment Ultralytics YOLO SAM une segmentation précise et une annotation plus rapide des données.

Le prompt visuel est une technique émergente en vision par ordinateur dans laquelle les utilisateurs fournissent des repères spatiaux ou visuels, tels que des points, des cadres ou des gribouillis, afin d'orienter l'attention d'un modèle d'IA vers des objets ou des zones spécifiques d'une image. Contrairement à l'ingénierie de prompt traditionnelle qui repose principalement sur des descriptions textuelles, le prompt visuel permet une interaction plus précise et intuitive avec les systèmes d'intelligence artificielle (IA). Cette méthode exploite les capacités des modèles de base modernes pour effectuer des tâches telles que la segmentation et la détection sans nécessiter de formation approfondie ou de grands ensembles de données étiquetées. En « pointant » efficacement ce qui importe, les utilisateurs peuvent adapter instantanément des modèles à usage général à de nouvelles tâches, comblant ainsi le fossé entre l'intention humaine et la perception de la machine.

Mécanismes de stimulation visuelle

Fondamentalement, le guidage visuel fonctionne en injectant des informations spatiales directement dans le pipeline de traitement du modèle. Lorsqu'un utilisateur clique sur un objet ou dessine un cadre, ces entrées sont converties en intégrations basées sur des coordonnées que le réseau neuronal intègre aux caractéristiques de l'image. Ce processus est au cœur des architectures interactives telles que le modèle Segment Anything Model (SAM), dans lequel le modèle prédit des masques à partir de guidages géométriques.

La flexibilité des invites visuelles permet différents types d'interaction :

Indications de point : un utilisateur clique sur un pixel spécifique pour indiquer l'objet qui l'intéresse. Le modèle étend ensuite cette sélection à l'ensemble des limites de l'objet.
Invites de boîte : le dessin d'une boîte englobante fournit une localisation approximative, indiquant au modèle de segment de classify se trouve dans cette zone.
Suggestions de gribouillis : les lignes dessinées à main levée sur un objet peuvent aider à clarifier les scènes complexes où les objets se chevauchent ou ont des textures similaires.

Des recherches récentes présentées lors de la conférence CVPR 2024 soulignent à quel point les invites visuelles réduisent considérablement le temps nécessaire à l' annotation des données, car les annotateurs humains peuvent corriger les prédictions du modèle en temps réel d'un simple clic plutôt que de tracer manuellement des polygones.

Invite visuelle ou invite textuelle

Bien que ces deux techniques visent à guider le comportement du modèle, il est important de distinguer les invites visuelles des méthodes basées sur le texte . La génération de texte en image ou la détection zéro-shot s'appuie sur le traitement du langage naturel (NLP) pour interpréter les descriptions sémantiques (par exemple, « trouver la voiture rouge »). Cependant, le langage peut être ambigu ou insuffisant pour décrire des emplacements spatiaux précis ou des formes abstraites.

Les indications visuelles permettent de lever cette ambiguïté en ancrant l'instruction dans l'espace pixel lui-même. Par exemple, dans l' analyse d'images médicales, il est beaucoup plus précis pour un radiologue de cliquer sur un nodule suspect que d'essayer de décrire ses coordonnées exactes et sa forme irrégulière par le biais d'un texte. Souvent, les flux de travail les plus performants combinent les deux approches : l'utilisation du texte pour le filtrage sémantique et les invites visuelles pour la précision spatiale, un concept connu sous le nom d' apprentissage multimodal.

Applications concrètes

La polyvalence des invites visuelles a conduit à leur adoption rapide dans divers secteurs :

Diagnostic médical interactif : les médecins utilisent des outils d'aide visuelle pour isoler les tumeurs ou les organes dans les scanners IRM. En cliquant simplement sur une zone d'intérêt, ils peuvent générer instantanément des mesures volumétriques en 3D, ce qui facilite la détectionprécise des tumeurs et la planification chirurgicale.
Retouche photo intelligente : dans les logiciels grand public tels qu'Adobe Photoshop ou les applications mobiles, les invites visuelles alimentent les outils de « sélection magique ». Les utilisateurs peuvent appuyer sur une personne ou un objet pour supprimer l'arrière-plan ou appliquer des filtres ciblés , en utilisant les technologies sous-jacentes de segmentation d'instance sans avoir besoin de compétences en masquage manuel.
Manipulation robotique : dans le domaine de l' IA appliquée à la robotique, il est possible de demander à des robots de saisir des objets spécifiques via une interface visuelle. Un opérateur clique sur un objet dans le flux vidéo de la caméra du robot, fournissant ainsi une instruction visuelle que le robot traduit en coordonnées de préhension, ce qui facilite l' automatisation avec intervention humaine dans les entrepôts.

Mise en œuvre avec Ultralytics

Ultralytics prend en charge les flux de travail de suggestion visuelle, notamment grâce à des modèles tels que FastSAM SAM. Ces modèles permettent aux développeurs de transmettre par programmation les coordonnées de points ou de boîtes afin de récupérer des masques de segmentation.

L'exemple suivant montre comment utiliser la fonction ultralytics package pour appliquer une invite ponctuelle à une image, demandant au modèle de segment situé à des coordonnées spécifiques.

from ultralytics import SAM

# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")

# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])

# Display the segmented result
results[0].show()

Améliorer l'agilité des modèles

Le guidage visuel représente une évolution vers une vision par ordinateur « guidable », où les modèles ne sont plus des « boîtes noires » statiques, mais des outils interactifs. Cette capacité est essentielle pour les boucles d'apprentissage actif, où les modèles s'améliorent rapidement en intégrant les commentaires des utilisateurs.

Pour les développeurs qui souhaitent intégrer ces capacités dans la production, Ultralytics propose des outils permettant de gérer des ensembles de données et de déployer des modèles capables de traiter des entrées dynamiques. À mesure que la recherche progresse, nous nous attendons à voir une intégration encore plus étroite entre les invites visuelles et les grands modèles linguistiques (LLM), permettant ainsi aux systèmes de raisonner à partir d'entrées visuelles avec la même fluidité qu'ils traitent actuellement le texte.

Invite visuelle

Former les modèlesYOLO d'Ultralytics pour rationaliser les flux de travail dans tous les secteurs d'activité

Solution de licence d'entreprise flexible pour dynamiser votre innovation

Former des modèles d'IA en quelques secondes avec Ultralytics YOLO

Mécanismes de stimulation visuelle

Invite visuelle ou invite textuelle

Applications concrètes

Mise en œuvre avec Ultralytics

Améliorer l'agilité des modèles

En savoir plus dans cette catégorie

12 cas d'utilisation de l'imagerie aérienne grâce à la vision par ordinateur

Qu'est-ce que l'estimation monoculaire de la profondeur ? Aperçu général

Un aperçu de l'utilisationYOLO Ultralytics pour la détection des menaces par l'IA

Rejoindre la communauté Ultralytics