Descubra como o ajuste da instrução visual permite que os modelos de linguagem visual sigam as instruções humanas. Aprenda a criar fluxos de trabalho avançados de IA utilizando Ultralytics .
O ajuste por instrução visual é uma técnica transformadora de aprendizagem automática que alarga os métodos tradicionais de processamento de linguagem natural ao domínio multimodal. Ao treinar um Modelo de Linguagem Visual (VLM) para seguir diretivas humanas explícitas com base em entradas de imagem ou vídeo, os programadores podem criar assistentes de IA que compreendem e raciocinam sobre conteúdos visuais. Ao contrário dos modelos padrão de classificação de imagens, que produzem uma categoria predefinida, o ajuste de instruções visuais capacita os modelos a executar tarefas complexas e de resposta aberta — tais como descrever uma cena, ler texto dentro de uma imagem ou responder a perguntas específicas sobre relações espaciais. Isto colmata a lacuna entre os grandes modelos de linguagem (LLMs) baseados em texto e os fluxos de trabalho tradicionais de visão computacional.
Para compreender o ajuste de instruções visuais, é útil distingui-lo de conceitos intimamente relacionados no ecossistema da IA:
O processo de treino envolve geralmente o ajuste fino de um modelo base multimodal pré-treinado, utilizando conjuntos de dados extensos formatados como trios imagem-texto-instrução. Pesquisas pioneiras no arXiv sobre o ajuste de instruções visuais, como o projeto LLaVA (Large Language-and-Vision Assistant), demonstraram que estes modelos podem alcançar capacidades notáveis de aprendizagem sem dados de treino. Atualmente, as principais organizações de IA empregam esta técnica para alimentar modelos avançados, incluindo o OpenAI GPT-4o, Anthropic 3.5 Sonnet e Google Gemini.
Ao alinhar arquiteturas multimodais de aprendizagem profunda com a intenção humana, o ajuste de instruções visuais permite o desenvolvimento de aplicações altamente interativas em diversos setores:
Para criar sistemas que tirem partido destas capacidades, os programadores recorrem frequentemente a modelos robustos de deteção de objetos para extrair o contexto estrutural das imagens antes de passar esses dados para um VLM. Utilizando a documentaçãoPyTorch ou os modelosTensorFlow , os programadores podem criar fluxos de trabalho híbridos.
Por exemplo, pode utilizar umYOLO Ultralytics para analisar rapidamente uma cena e gerar um prompt de linguagem informado para um VLM a jusante:
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...
A gestão dos conjuntos de dados complexos e multimodais necessários para estas aplicações de última geração pode ser um desafio. A Ultralytics simplifica este processo, fornecendo ferramentas completas para a anotação de conjuntos de dados, treino na nuvem e implementação de modelos sem interrupções. Quer esteja a ler artigos de ponta na biblioteca digital da ACM ou nos arquivos de visão computacional do IEEE Xplore, a transição para sistemas de visão altamente capazes e otimizados para instruções representa a vanguarda da inteligência artificial. Ao combinar a perceção do YOLO26 com modelos de raciocínio otimizados, as organizações podem implementar agentes de IA incrivelmente robustos.
Comece sua jornada com o futuro do aprendizado de máquina