Visual Instruction Tuning
Découvre comment l'ajustement d'instructions visuelles permet aux Vision Language Models de suivre les directives humaines. Apprends à créer des workflows d'IA avancés en utilisant Ultralytics YOLO26.
L'ajustement d'instructions visuelles est une technique d'apprentissage automatique transformatrice qui étend les méthodes traditionnelles de traitement du langage naturel au domaine multimodal. En entraînant un Vision Language Model (VLM) à suivre des directives humaines explicites basées sur des entrées d'image ou de vidéo, les développeurs peuvent créer des assistants IA capables de comprendre et de raisonner sur du contenu visuel. Contrairement aux modèles standards de classification d'images qui produisent une catégorie prédéfinie, l'ajustement d'instructions visuelles permet aux modèles d'exécuter des tâches complexes et ouvertes, telles que décrire une scène, lire du texte dans une image ou répondre à des questions spécifiques sur des relations spatiales. Cela comble le fossé entre les large language models (LLMs) basés sur le texte et les pipelines traditionnels de computer vision.
Link to this sectionComprendre le concept et les distinctions#
Pour saisir l'ajustement d'instructions visuelles, il est utile de le distinguer des concepts étroitement liés dans l'écosystème de l'IA :
- Instruction Tuning : Se réfère généralement à l'alignement des LLM textuels uniquement pour suivre l'intention humaine de manière sûre et précise. L'ajustement d'instructions visuelles applique cette même méthodologie mais intègre des images dans le prompt et la sortie attendue.
- Visual Prompting : Implique généralement d'interagir avec une IA en utilisant des repères visuels — tels que dessiner une bounding box, placer un point ou masquer une zone sur une image — pour guider l'attention du modèle. En revanche, l'ajustement d'instructions visuelles repose fortement sur des commandes en langage naturel associées aux données visuelles.
Le processus d'entraînement implique généralement le fine-tuning d'un modèle de base multimodal pré-entraîné en utilisant des ensembles de données étendus formatés sous forme de triplets image-texte-instruction. Des recherches arXiv pionnières sur l'ajustement d'instructions visuelles, telles que le projet LLaVA (Large Language-and-Vision Assistant), ont démontré que ces modèles peuvent atteindre des capacités de zero-shot remarquables. Aujourd'hui, les principales organisations d'IA utilisent cette technique pour alimenter des modèles avancés, notamment OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet et Google DeepMind Gemini.
Link to this sectionApplications concrètes#
En alignant les architectures de deep learning multimodal avec l'intention humaine, l'ajustement d'instructions visuelles débloque des applications hautement interactives dans diverses industries :
- IA dans les diagnostics de santé : Les professionnels de santé peuvent utiliser des modèles ajustés par instructions pour le Visual Question Answering (VQA). Un radiologue pourrait soumettre au système une image radiographique avec l'instruction : « Surligne et explique tout signe de pneumonie dans le lobe inférieur gauche », permettant à l'IA d'agir comme un assistant de diagnostic collaboratif.
- IA dans le contrôle qualité industriel : Au lieu d'entraîner un modèle rigide de détection de défauts à partir de zéro, les opérateurs peuvent donner des instructions à un système de vision tel que Microsoft Florence-2 en déclarant : « Identifie toute rayure ou bosse microscopique sur ce boîtier métallique nouvellement fabriqué. »
Link to this sectionConstruire des workflows de vision#
Pour construire des systèmes qui tirent parti de ces capacités, les développeurs s'appuient souvent sur des modèles robustes d'object detection pour extraire le contexte structurel des images avant de transmettre ces données à un VLM. En utilisant la documentation multimodale PyTorch ou les modèles de vision TensorFlow, les développeurs peuvent créer des pipelines hybrides.
Par exemple, tu peux utiliser un modèle Ultralytics YOLO pour percevoir rapidement une scène et générer un prompt linguistique informé pour un VLM en aval :
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...Gérer les jeux de données multimodaux complexes requis pour ces applications de nouvelle génération peut s'avérer difficile. La Ultralytics Platform simplifie ce processus en fournissant des outils de bout en bout pour l'annotation de jeux de données, l'entraînement dans le cloud et le déploiement fluide des modèles. Que tu lises des articles de pointe sur la bibliothèque numérique ACM ou les archives IEEE Xplore computer vision, le passage vers des systèmes de vision hautement performants et ajustés par instructions représente la pointe de l'intelligence artificielle. En associant la perception YOLO26 à des modèles de raisonnement ajustés, les organisations peuvent déployer des agents d'IA incroyablement robustes.






