Visual Instruction Tuning

Scopri come il Visual Instruction Tuning consente ai Vision Language Models di seguire le direttive umane. Impara a costruire flussi di lavoro AI avanzati utilizzando Ultralytics YOLO26.

Il Visual Instruction Tuning è una tecnica di machine learning trasformativa che estende i metodi tradizionali di elaborazione del linguaggio naturale al dominio multimodale. Addestrando un Vision Language Model (VLM) a seguire esplicite direttive umane basate su input di immagini o video, gli sviluppatori possono creare assistenti AI in grado di comprendere e ragionare sui contenuti visivi. A differenza dei modelli standard di image classification che emettono una categoria predefinita, il Visual Instruction Tuning consente ai modelli di eseguire compiti complessi e aperti, come descrivere una scena, leggere testo all'interno di un'immagine o rispondere a domande specifiche sulle relazioni spaziali. Questo colma il divario tra i large language models (LLMs) basati su testo e le tradizionali pipeline di computer vision.

Link to this sectionComprendere il concetto e le distinzioni#

Per comprendere il Visual Instruction Tuning, è utile distinguerlo da concetti strettamente correlati nell'ecosistema AI:

Instruction Tuning: Si riferisce tipicamente all'allineamento di LLM basati solo su testo per seguire l'intento umano in modo sicuro e preciso. Il Visual Instruction Tuning applica la stessa metodologia ma incorpora le immagini nel prompt e nell'output previsto.
Visual Prompting: Di solito comporta l'interazione con un'AI utilizzando segnali visivi — come disegnare una BBox, posizionare un punto o mascherare un'area su un'immagine — per guidare il focus del modello. Al contrario, il Visual Instruction Tuning si basa pesantemente su comandi in linguaggio naturale abbinati ai dati visivi.

Il processo di addestramento comporta generalmente il fine-tuning di un modello di base multimodale pre-addestrato utilizzando ampi dataset formattati come terne immagine-testo-istruzione. La ricerca pionieristica su arXiv sul Visual Instruction Tuning, come il progetto LLaVA (Large Language-and-Vision Assistant), ha dimostrato che questi modelli possono ottenere notevoli capacità zero-shot. Oggi, le principali organizzazioni di AI impiegano questa tecnica per potenziare modelli avanzati, inclusi OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet e Google DeepMind Gemini.

Link to this sectionApplicazioni nel mondo reale#

Allineando le architetture di multimodal deep learning con l'intento umano, il Visual Instruction Tuning sblocca applicazioni altamente interattive in vari settori:

AI in Healthcare Diagnostics: I professionisti medici possono utilizzare modelli istruiti per il Visual Question Answering (VQA). Un radiologo potrebbe inviare al sistema un'immagine a raggi X con l'istruzione: "Evidenzia e spiega eventuali segni di polmonite nel lobo inferiore sinistro", consentendo all'AI di agire come assistente diagnostico collaborativo.
AI in Manufacturing Quality Control: Invece di addestrare un rigido modello di rilevamento difetti da zero, gli operatori possono istruire un sistema di visione come Microsoft Florence-2 affermando: "Identifica eventuali graffi o ammaccature microscopiche su questo involucro metallico appena fabbricato."

Link to this sectionCostruire flussi di lavoro di visione#

Per costruire sistemi che sfruttano queste capacità, gli sviluppatori si affidano spesso a robusti modelli di object detection per estrarre il contesto strutturale dalle immagini prima di passare tali dati a un VLM. Utilizzando la documentazione multimodale di PyTorch o i modelli di visione di TensorFlow, gli sviluppatori possono creare pipeline ibride.

Ad esempio, puoi utilizzare un modello Ultralytics YOLO per percepire rapidamente una scena e generare un prompt linguistico informato per un VLM a valle:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

Gestire i complessi dataset multimodali richiesti per queste applicazioni di prossima generazione può essere difficile. La Ultralytics Platform semplifica questo processo fornendo strumenti end-to-end per l'annotazione dei dataset, l'addestramento nel cloud e il deployment fluido dei modelli. Che tu stia leggendo articoli all'avanguardia sulla ACM digital library o sugli archivi IEEE Xplore computer vision, il passaggio verso sistemi di visione altamente capaci e istruiti rappresenta la frontiera dell'intelligenza artificiale. Accoppiando la percezione di YOLO26 con modelli di ragionamento ottimizzati, le organizzazioni possono implementare agenti AI incredibilmente robusti.

Visual Instruction Tuning

Link to this sectionComprendere il concetto e le distinzioni#

Link to this sectionApplicazioni nel mondo reale#

Link to this sectionCostruire flussi di lavoro di visione#

Explore solutions

IA in agricoltura

IA nel settore automobilistico

IA nell'assistenza sanitaria

AI nel settore retail

L'AI nella robotica

IA nella produzione

IA nella logistica

IA in agricoltura

IA nel settore automobilistico

IA nell'assistenza sanitaria

AI nel settore retail

L'AI nella robotica

IA nella produzione

IA nella logistica

IA in agricoltura

IA nel settore automobilistico

IA nell'assistenza sanitaria

AI nel settore retail

L'AI nella robotica

IA nella produzione

IA nella logistica

Costruiamo insieme il futuro dell'AI!