Scopri YOLO26: vision AI di prossima generazione.
Ultralytics
Torna al glossario Ultralytics

Visual Instruction Tuning

Scopri come il Visual Instruction Tuning consente ai Vision Language Models di seguire le direttive umane. Impara a costruire flussi di lavoro AI avanzati utilizzando Ultralytics YOLO26.

Il Visual Instruction Tuning è una tecnica di machine learning trasformativa che estende i metodi tradizionali di elaborazione del linguaggio naturale al dominio multimodale. Addestrando un Vision Language Model (VLM) a seguire esplicite direttive umane basate su input di immagini o video, gli sviluppatori possono creare assistenti AI in grado di comprendere e ragionare sui contenuti visivi. A differenza dei modelli standard di image classification che emettono una categoria predefinita, il Visual Instruction Tuning consente ai modelli di eseguire compiti complessi e aperti, come descrivere una scena, leggere testo all'interno di un'immagine o rispondere a domande specifiche sulle relazioni spaziali. Questo colma il divario tra i large language models (LLMs) basati su testo e le tradizionali pipeline di computer vision.

Link to this sectionComprendere il concetto e le distinzioni#

Per comprendere il Visual Instruction Tuning, è utile distinguerlo da concetti strettamente correlati nell'ecosistema AI:

  • Instruction Tuning: Si riferisce tipicamente all'allineamento di LLM basati solo su testo per seguire l'intento umano in modo sicuro e preciso. Il Visual Instruction Tuning applica la stessa metodologia ma incorpora le immagini nel prompt e nell'output previsto.
  • Visual Prompting: Di solito comporta l'interazione con un'AI utilizzando segnali visivi — come disegnare una BBox, posizionare un punto o mascherare un'area su un'immagine — per guidare il focus del modello. Al contrario, il Visual Instruction Tuning si basa pesantemente su comandi in linguaggio naturale abbinati ai dati visivi.

Il processo di addestramento comporta generalmente il fine-tuning di un modello di base multimodale pre-addestrato utilizzando ampi dataset formattati come terne immagine-testo-istruzione. La ricerca pionieristica su arXiv sul Visual Instruction Tuning, come il progetto LLaVA (Large Language-and-Vision Assistant), ha dimostrato che questi modelli possono ottenere notevoli capacità zero-shot. Oggi, le principali organizzazioni di AI impiegano questa tecnica per potenziare modelli avanzati, inclusi OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet e Google DeepMind Gemini.

Link to this sectionApplicazioni nel mondo reale#

Allineando le architetture di multimodal deep learning con l'intento umano, il Visual Instruction Tuning sblocca applicazioni altamente interattive in vari settori:

  • AI in Healthcare Diagnostics: I professionisti medici possono utilizzare modelli istruiti per il Visual Question Answering (VQA). Un radiologo potrebbe inviare al sistema un'immagine a raggi X con l'istruzione: "Evidenzia e spiega eventuali segni di polmonite nel lobo inferiore sinistro", consentendo all'AI di agire come assistente diagnostico collaborativo.
  • AI in Manufacturing Quality Control: Invece di addestrare un rigido modello di rilevamento difetti da zero, gli operatori possono istruire un sistema di visione come Microsoft Florence-2 affermando: "Identifica eventuali graffi o ammaccature microscopiche su questo involucro metallico appena fabbricato."

Link to this sectionCostruire flussi di lavoro di visione#

Per costruire sistemi che sfruttano queste capacità, gli sviluppatori si affidano spesso a robusti modelli di object detection per estrarre il contesto strutturale dalle immagini prima di passare tali dati a un VLM. Utilizzando la documentazione multimodale di PyTorch o i modelli di visione di TensorFlow, gli sviluppatori possono creare pipeline ibride.

Ad esempio, puoi utilizzare un modello Ultralytics YOLO per percepire rapidamente una scena e generare un prompt linguistico informato per un VLM a valle:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

Gestire i complessi dataset multimodali richiesti per queste applicazioni di prossima generazione può essere difficile. La Ultralytics Platform semplifica questo processo fornendo strumenti end-to-end per l'annotazione dei dataset, l'addestramento nel cloud e il deployment fluido dei modelli. Che tu stia leggendo articoli all'avanguardia sulla ACM digital library o sugli archivi IEEE Xplore computer vision, il passaggio verso sistemi di visione altamente capaci e istruiti rappresenta la frontiera dell'intelligenza artificiale. Accoppiando la percezione di YOLO26 con modelli di ragionamento ottimizzati, le organizzazioni possono implementare agenti AI incredibilmente robusti.

Explore solutions

Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più
Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più
Real-time AI tailored to your operation

IA in agricoltura

Porta l'IA visiva nell'agricoltura intelligente con i modelli Ultralytics YOLO. Potenzia il monitoraggio delle colture, il tracciamento del bestiame e l'agricoltura di precisione per raccolti più elevati e intelligenti.

Scopri di più
Real-time AI that works with your operation

IA nel settore automobilistico

Applica la computer vision nel settore automobilistico con i modelli Ultralytics YOLO. La Vision AI migliora la sicurezza stradale, l'assistenza alla guida e l'automazione dei veicoli per strade più intelligenti.

Scopri di più
Real-time AI that works with your team

IA nell'assistenza sanitaria

Sviluppa soluzioni sanitarie con i modelli Ultralytics YOLO. L'IA di visione nell'assistenza sanitaria potenzia l'imaging medico, la diagnostica più intelligente e il monitoraggio dei pazienti.

Scopri di più
Real-time AI that works with your team

AI nel settore retail

Reimmagina il retail con i modelli Ultralytics YOLO. La Vision AI potenzia il tracciamento dell'inventario, il monitoraggio degli scaffali, la gestione delle code e offre insight più intelligenti sui clienti.

Scopri di più
Real-time AI that works with your team

L'AI nella robotica

Potenzia macchine più intelligenti con i modelli Ultralytics YOLO. La Vision AI nella robotica guida la navigazione autonoma, la percezione, il tracciamento degli oggetti e il controllo in tempo reale.

Scopri di più
Real-time AI that works with your team

IA nella produzione

Ottimizza la produzione con i modelli Ultralytics YOLO. La Vision AI potenzia il controllo qualità, il rilevamento dei difetti, la conformità ai DPI e l'automazione della catena di montaggio.

Scopri di più
Real-time AI that works with your team

IA nella logistica

Semplifica la logistica con i modelli Ultralytics YOLO. L'IA basata sulla visione artificiale consente l'ispezione dei pacchi, lo smistamento, il tracciamento dei veicoli e il monitoraggio in tempo reale della sicurezza nei magazzini.

Scopri di più

Costruiamo insieme il futuro dell'AI!

Inizia il tuo viaggio con il futuro del machine learning