Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Réglage de l'affichage

Découvrez comment l'ajustement des instructions visuelles permet aux modèles de langage visuel de suivre les directives humaines. Apprenez à créer des flux de travail IA avancés à l'aide Ultralytics .

L'ajustement par instructions visuelles est une technique révolutionnaire d'apprentissage automatique qui étend les méthodes traditionnelles de traitement du langage naturel au domaine multimodal. En entraînant un modèle de langage visuel (VLM) à suivre des directives humaines explicites basées sur des entrées d'images ou de vidéos, les développeurs peuvent créer des assistants IA capables de comprendre et de raisonner à partir de contenus visuels. Contrairement aux modèles de classification d'images standard qui génèrent une catégorie prédéfinie, l'ajustement des instructions visuelles permet aux modèles d'exécuter des tâches complexes et ouvertes, telles que décrire une scène, lire du texte dans une image ou répondre à des questions spécifiques sur les relations spatiales. Cela comble le fossé entre les grands modèles linguistiques (LLM) basés sur le texte et les pipelines traditionnels de vision par ordinateur.

Comprendre le concept et les distinctions

Pour bien comprendre le réglage des instructions visuelles, il est utile de le distinguer de concepts étroitement liés au sein de l'écosystème de l'IA :

  • Réglage des instructions: ce terme désigne généralement le processus consistant à ajuster les modèles de langage de grande envergure (LLM) fonctionnant uniquement avec du texte afin qu'ils interprètent l'intention humaine de manière sûre et précise. Le réglage des instructions visuelles applique cette même méthodologie, mais intègre des images dans la consigne et dans le résultat attendu.
  • Aide visuelle: cela consiste généralement à interagir avec une IA à l'aide d'indicateurs visuels — comme dessiner un cadre de sélection, placer un point ou masquer une zone sur une image — afin d'orienter l'attention du modèle. En revanche, l'ajustement par instructions visuelles repose largement sur des commandes en langage naturel associées aux données visuelles.

Le processus d'entraînement consiste généralement à affiner un modèle de base multimodal pré-entraîné à l'aide de vastes ensembles de données formatés sous forme de triplets image-texte-instruction. Des recherches pionnières publiées sur arXiv concernant l'ajustement par instruction visuelle, telles que le projet LLaVA (Large Language-and-Vision Assistant), ont démontré que ces modèles peuvent atteindre des capacités « zero-shot » remarquables. Aujourd'hui, les principaux acteurs de l'IA utilisent cette technique pour alimenter des modèles avancés, notamment OpenAI GPT-4o, Anthropic 3.5 Sonnet et Google Gemini.

Applications concrètes

En alignant les architectures d'apprentissage profond multimodal sur les intentions humaines, l'ajustement des instructions visuelles permet de développer des applications hautement interactives dans divers secteurs :

  • L'IA dans le domaine du diagnostic médical: Les professionnels de santépeuvent utiliser des modèles entraînés à partir d'instructions pour la réponse visuelle à des questions (VQA). Un radiologue peut par exemple soumettre au système une radiographie accompagnée de l'instruction suivante : « Mettez en évidence et expliquez tout signe de pneumonie dans le lobe inférieur gauche », permettant ainsi à l'IA de jouer le rôle d'assistant de diagnostic collaboratif.
  • L'IA dans le contrôle qualité de la fabrication: Au lieu de former un modèle de détection des défauts rigide à partir de zéro, les opérateurs peuvent donner des instructions à un système de vision tel que Microsoft en lui demandant : « Identifie toutes les rayures ou bosses microscopiques présentes sur ce boîtier métallique nouvellement fabriqué. »

Création de flux de travail

Pour développer des systèmes tirant parti de ces capacités, les développeurs s'appuient souvent sur des modèles de détection d'objets robustes afin d'extraire le contexte structurel des images avant de transmettre ces données à un modèle de langage visuel (VLM). En s'appuyant sur la documentationPyTorch ou sur les modèlesTensorFlow , les développeurs peuvent créer des chaînes de traitement hybrides.

Par exemple, vous pouvez utiliser unYOLO Ultralytics pour analyser rapidement une scène et générer une instruction textuelle pertinente pour un modèle de langage visuel (VLM) en aval :

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

La gestion des ensembles de données complexes et multimodaux requis pour ces applications de nouvelle génération peut s'avérer difficile. La Ultralytics simplifie ce processus en fournissant des outils de bout en bout pour l'annotation des ensembles de données, l'entraînement dans le cloud et le déploiement transparent des modèles. Que vous lisiez des articles de pointe dans la bibliothèque numérique de l'ACM ou les archives de vision par ordinateur d'IEEE Xplore, l'évolution vers des systèmes de vision hautement performants et optimisés par l'apprentissage représente la pointe de l'intelligence artificielle. En associant la perception YOLO26 à des modèles de raisonnement optimisés, les organisations peuvent déployer des agents IA incroyablement robustes.

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique