Scopri come l'ottimizzazione delle istruzioni visive consenta ai modelli di linguaggio visivo di seguire le indicazioni umane. Impara a creare flussi di lavoro avanzati basati sull'intelligenza artificiale utilizzando Ultralytics .
L'ottimizzazione delle istruzioni visive è una tecnica rivoluzionaria di apprendimento automatico che estende i tradizionali metodi di elaborazione del linguaggio naturale al dominio multimodale. Addestrando un modello di linguaggio visivo (VLM) a seguire direttive umane esplicite basate su input di immagini o video, gli sviluppatori possono creare assistenti IA in grado di comprendere e ragionare sui contenuti visivi. A differenza dei modelli standard di classificazione delle immagini che restituiscono una categoria predefinita, la regolazione delle istruzioni visive consente ai modelli di eseguire compiti complessi e aperti, come descrivere una scena, leggere il testo all'interno di un'immagine o rispondere a domande specifiche sulle relazioni spaziali. Ciò colma il divario tra i modelli linguistici di grandi dimensioni (LLM) basati sul testo e le tradizionali pipeline di visione artificiale.
Per comprendere appieno l'ottimizzazione delle istruzioni visive, è utile distinguerla da concetti strettamente correlati nell'ecosistema dell'intelligenza artificiale:
Il processo di addestramento prevede generalmente la messa a punto di un modello di base multimodale pre-addestrato utilizzando ampi set di dati strutturati in triplette immagine-testo-istruzione. Ricerche pionieristiche su arXiv relative alla messa a punto tramite istruzioni visive, come il progetto LLaVA (Large Language-and-Vision Assistant), hanno dimostrato che questi modelli possono raggiungere notevoli capacità zero-shot. Oggi, le principali organizzazioni di IA impiegano questa tecnica per potenziare modelli avanzati, tra cui OpenAI GPT-4o, Anthropic 3.5 Sonnet e Google Gemini.
Allineando le architetture di deep learning multimodale alle intenzioni umane, l'ottimizzazione delle istruzioni visive consente lo sviluppo di applicazioni altamente interattive in diversi settori:
Per realizzare sistemi che sfruttino queste funzionalità, gli sviluppatori ricorrono spesso a robusti modelli di rilevamento degli oggetti per estrarre il contesto strutturale dalle immagini prima di trasmettere tali dati a un VLM. Utilizzando la documentazionePyTorch o i modelliTensorFlow , gli sviluppatori possono creare pipeline ibride.
Ad esempio, è possibile utilizzare unYOLO Ultralytics per analizzare rapidamente una scena e generare un prompt testuale adatto per un VLM a valle:
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...
La gestione dei complessi set di dati multimodali richiesti da queste applicazioni di nuova generazione può rivelarsi complessa. La Ultralytics semplifica questo processo fornendo strumenti end-to-end per l'annotazione dei set di dati, l'addestramento nel cloud e l'implementazione senza soluzione di continuità dei modelli. Che stiate leggendo articoli all'avanguardia sulla biblioteca digitale ACM o gli archivi di visione artificiale di IEEE Xplore, il passaggio verso sistemi di visione altamente capaci e ottimizzati per le istruzioni rappresenta l'avanguardia dell'intelligenza artificiale. Abbinando la percezione di YOLO26 a modelli di ragionamento ottimizzati, le organizzazioni possono implementare agenti di IA incredibilmente robusti.
Inizia il tuo viaggio con il futuro del machine learning