Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Ottimizzazione dell'istruzione visiva

Scopri come l'ottimizzazione delle istruzioni visive consenta ai modelli di linguaggio visivo di seguire le indicazioni umane. Impara a creare flussi di lavoro avanzati basati sull'intelligenza artificiale utilizzando Ultralytics .

L'ottimizzazione delle istruzioni visive è una tecnica rivoluzionaria di apprendimento automatico che estende i tradizionali metodi di elaborazione del linguaggio naturale al dominio multimodale. Addestrando un modello di linguaggio visivo (VLM) a seguire direttive umane esplicite basate su input di immagini o video, gli sviluppatori possono creare assistenti IA in grado di comprendere e ragionare sui contenuti visivi. A differenza dei modelli standard di classificazione delle immagini che restituiscono una categoria predefinita, la regolazione delle istruzioni visive consente ai modelli di eseguire compiti complessi e aperti, come descrivere una scena, leggere il testo all'interno di un'immagine o rispondere a domande specifiche sulle relazioni spaziali. Ciò colma il divario tra i modelli linguistici di grandi dimensioni (LLM) basati sul testo e le tradizionali pipeline di visione artificiale.

Comprendere il concetto e le differenze

Per comprendere appieno l'ottimizzazione delle istruzioni visive, è utile distinguerla da concetti strettamente correlati nell'ecosistema dell'intelligenza artificiale:

  • Ottimizzazione delle istruzioni: in genere si riferisce all'adattamento dei modelli di linguaggio di grandi dimensioni (LLM) basati esclusivamente sul testo, affinché seguano l'intento umano in modo sicuro e accurato. L'ottimizzazione delle istruzioni visive applica la stessa metodologia, ma integra immagini sia nel prompt che nel risultato atteso.
  • Prompt visivi: solitamente consiste nell'interagire con un'intelligenza artificiale utilizzando indicazioni visive — come disegnare un riquadro di delimitazione, posizionare un punto o mascherare un' area su un'immagine — per guidare l'attenzione del modello. Al contrario, l'ottimizzazione tramite istruzioni visive si basa in gran parte su comandi in linguaggio naturale abbinati ai dati visivi.

Il processo di addestramento prevede generalmente la messa a punto di un modello di base multimodale pre-addestrato utilizzando ampi set di dati strutturati in triplette immagine-testo-istruzione. Ricerche pionieristiche su arXiv relative alla messa a punto tramite istruzioni visive, come il progetto LLaVA (Large Language-and-Vision Assistant), hanno dimostrato che questi modelli possono raggiungere notevoli capacità zero-shot. Oggi, le principali organizzazioni di IA impiegano questa tecnica per potenziare modelli avanzati, tra cui OpenAI GPT-4o, Anthropic 3.5 Sonnet e Google Gemini.

Applicazioni nel mondo reale

Allineando le architetture di deep learning multimodale alle intenzioni umane, l'ottimizzazione delle istruzioni visive consente lo sviluppo di applicazioni altamente interattive in diversi settori:

Creazione di flussi di lavoro per la visione

Per realizzare sistemi che sfruttino queste funzionalità, gli sviluppatori ricorrono spesso a robusti modelli di rilevamento degli oggetti per estrarre il contesto strutturale dalle immagini prima di trasmettere tali dati a un VLM. Utilizzando la documentazionePyTorch o i modelliTensorFlow , gli sviluppatori possono creare pipeline ibride.

Ad esempio, è possibile utilizzare unYOLO Ultralytics per analizzare rapidamente una scena e generare un prompt testuale adatto per un VLM a valle:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

La gestione dei complessi set di dati multimodali richiesti da queste applicazioni di nuova generazione può rivelarsi complessa. La Ultralytics semplifica questo processo fornendo strumenti end-to-end per l'annotazione dei set di dati, l'addestramento nel cloud e l'implementazione senza soluzione di continuità dei modelli. Che stiate leggendo articoli all'avanguardia sulla biblioteca digitale ACM o gli archivi di visione artificiale di IEEE Xplore, il passaggio verso sistemi di visione altamente capaci e ottimizzati per le istruzioni rappresenta l'avanguardia dell'intelligenza artificiale. Abbinando la percezione di YOLO26 a modelli di ragionamento ottimizzati, le organizzazioni possono implementare agenti di IA incredibilmente robusti.

Costruiamo insieme il futuro dell'intelligenza artificiale!

Inizia il tuo viaggio con il futuro del machine learning