Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Ajuste da instrução visual

Descubra como o ajuste da instrução visual permite que os modelos de linguagem visual sigam as instruções humanas. Aprenda a criar fluxos de trabalho avançados de IA utilizando Ultralytics .

O ajuste por instrução visual é uma técnica transformadora de aprendizagem automática que alarga os métodos tradicionais de processamento de linguagem natural ao domínio multimodal. Ao treinar um Modelo de Linguagem Visual (VLM) para seguir diretivas humanas explícitas com base em entradas de imagem ou vídeo, os programadores podem criar assistentes de IA que compreendem e raciocinam sobre conteúdos visuais. Ao contrário dos modelos padrão de classificação de imagens, que produzem uma categoria predefinida, o ajuste de instruções visuais capacita os modelos a executar tarefas complexas e de resposta aberta — tais como descrever uma cena, ler texto dentro de uma imagem ou responder a perguntas específicas sobre relações espaciais. Isto colmata a lacuna entre os grandes modelos de linguagem (LLMs) baseados em texto e os fluxos de trabalho tradicionais de visão computacional.

Compreender o conceito e as distinções

Para compreender o ajuste de instruções visuais, é útil distingui-lo de conceitos intimamente relacionados no ecossistema da IA:

  • Ajuste de instruções: Normalmente refere-se ao alinhamento de LLMs apenas de texto para que sigam a intenção humana de forma segura e precisa. O ajuste de instruções visuais aplica esta mesma metodologia, mas incorpora imagens no prompt e na resposta esperada.
  • Sugestões visuais: Normalmente envolvem a interação com uma IA através de pistas visuais — tais como desenhar uma caixa delimitadora, colocar um ponto ou ocultar uma área numa imagem — para orientar o foco do modelo. Em contrapartida, o ajuste por instruções visuais depende fortemente de comandos em linguagem natural combinados com os dados visuais.

O processo de treino envolve geralmente o ajuste fino de um modelo base multimodal pré-treinado, utilizando conjuntos de dados extensos formatados como trios imagem-texto-instrução. Pesquisas pioneiras no arXiv sobre o ajuste de instruções visuais, como o projeto LLaVA (Large Language-and-Vision Assistant), demonstraram que estes modelos podem alcançar capacidades notáveis de aprendizagem sem dados de treino. Atualmente, as principais organizações de IA empregam esta técnica para alimentar modelos avançados, incluindo o OpenAI GPT-4o, Anthropic 3.5 Sonnet e Google Gemini.

Aplicações no Mundo Real

Ao alinhar arquiteturas multimodais de aprendizagem profunda com a intenção humana, o ajuste de instruções visuais permite o desenvolvimento de aplicações altamente interativas em diversos setores:

  • IA no diagnóstico médico: Os profissionais de saúde podem utilizar modelos treinados com instruções para a Resposta Visual a Perguntas (VQA). Um radiologista pode apresentar ao sistema uma imagem de raio-X acompanhada da instrução: «Destaque e explique quaisquer sinais de pneumonia no lobo inferior esquerdo», permitindo que a IA atue como um assistente de diagnóstico colaborativo.
  • IA no controlo de qualidade da produção: Em vez de treinar um modelo rígido de deteção de defeitos a partir do zero, os operadores podem instruir um sistema de visão como o Microsoft dizendo: «Identifique quaisquer riscos ou amolgadelas microscópicas nesta caixa metálica recém-fabricada.»

Criação de fluxos de trabalho de visão

Para criar sistemas que tirem partido destas capacidades, os programadores recorrem frequentemente a modelos robustos de deteção de objetos para extrair o contexto estrutural das imagens antes de passar esses dados para um VLM. Utilizando a documentaçãoPyTorch ou os modelosTensorFlow , os programadores podem criar fluxos de trabalho híbridos.

Por exemplo, pode utilizar umYOLO Ultralytics para analisar rapidamente uma cena e gerar um prompt de linguagem informado para um VLM a jusante:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

A gestão dos conjuntos de dados complexos e multimodais necessários para estas aplicações de última geração pode ser um desafio. A Ultralytics simplifica este processo, fornecendo ferramentas completas para a anotação de conjuntos de dados, treino na nuvem e implementação de modelos sem interrupções. Quer esteja a ler artigos de ponta na biblioteca digital da ACM ou nos arquivos de visão computacional do IEEE Xplore, a transição para sistemas de visão altamente capazes e otimizados para instruções representa a vanguarda da inteligência artificial. Ao combinar a perceção do YOLO26 com modelos de raciocínio otimizados, as organizações podem implementar agentes de IA incrivelmente robustos.

Vamos construir juntos o futuro da IA!

Comece sua jornada com o futuro do aprendizado de máquina