Visual Instruction Tuning
Explora como o ajuste de instrução visual permite que Modelos de Linguagem e Visão sigam diretrizes humanas. Aprende a construir fluxos de trabalho de IA avançados utilizando Ultralytics YOLO26.
O ajuste de instrução visual é uma técnica transformadora de aprendizagem automática que estende métodos tradicionais de processamento de linguagem natural para o domínio multimodal. Ao treinar um Vision Language Model (VLM) para seguir diretrizes humanas explícitas com base em entradas de imagem ou vídeo, os programadores podem criar assistentes de IA que compreendem e raciocinam sobre conteúdo visual. Ao contrário dos modelos padrão de image classification que geram uma categoria predefinida, o ajuste de instrução visual capacita os modelos a executar tarefas complexas e abertas — como descrever uma cena, ler texto dentro de uma imagem ou responder a perguntas específicas sobre relações espaciais. Isto reduz a lacuna entre large language models (LLMs) baseados em texto e pipelines tradicionais de computer vision.
Link to this sectionCompreender o Conceito e as Distinções#
Para compreender o ajuste de instrução visual, é útil distingui-lo de conceitos estreitamente relacionados no ecossistema de IA:
- Instruction Tuning: Refere-se tipicamente ao alinhamento de LLMs apenas de texto para seguir a intenção humana de forma segura e precisa. O ajuste de instrução visual aplica esta mesma metodologia, mas incorpora imagens no prompt e na saída esperada.
- Visual Prompting: Envolve geralmente a interação com uma IA utilizando pistas visuais — tais como desenhar uma caixa delimitadora, colocar um ponto ou mascarar uma área numa imagem — para orientar o foco do modelo. Em contraste, o ajuste de instrução visual baseia-se fortemente em comandos de linguagem natural emparelhados com os dados visuais.
O processo de treino envolve geralmente o fine-tuning de um modelo de base multimodal pré-treinado utilizando conjuntos de dados extensivos formatados como tripletos de imagem-texto-instrução. A arXiv research on visual instruction tuning pioneira, como o projeto LLaVA (Large Language-and-Vision Assistant), demonstrou que estes modelos podem alcançar capacidades notáveis de zero-shot. Hoje, as principais organizações de IA empregam esta técnica para potenciar modelos avançados, incluindo OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet e Google DeepMind Gemini.
Link to this sectionAplicações no Mundo Real#
Ao alinhar arquiteturas de multimodal deep learning com a intenção humana, o ajuste de instrução visual desbloqueia aplicações altamente interativas em várias indústrias:
- AI in Healthcare Diagnostics: Os profissionais de saúde podem utilizar modelos ajustados por instrução para Visual Question Answering (VQA). Um radiologista pode solicitar ao sistema com uma imagem de raio-X e a instrução, "Destaca e explica quaisquer sinais de pneumonia no lobo inferior esquerdo," permitindo que a IA atue como um assistente de diagnóstico colaborativo.
- AI in Manufacturing Quality Control: Em vez de treinar um modelo rígido de deteção de defeitos do zero, os operadores podem instruir um sistema de visão como o Microsoft Florence-2 declarando: "Identifica quaisquer riscos ou amolgadelas microscópicas nesta caixa de metal recém-fabricada."
Link to this sectionConstruir Fluxos de Trabalho de Visão#
Para construir sistemas que alavanquem estas capacidades, os programadores dependem frequentemente de modelos robustos de object detection para extrair contexto estrutural das imagens antes de transmitir esses dados a um VLM. Utilizando a PyTorch multi-modal documentation ou modelos de visão TensorFlow, os programadores podem criar pipelines híbridos.
Por exemplo, podes utilizar um modelo Ultralytics YOLO para percecionar rapidamente uma cena e gerar um prompt de linguagem informado para um VLM a jusante:
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...Gerir os conjuntos de dados multimodais complexos necessários para estas aplicações de próxima geração pode ser um desafio. A Ultralytics Platform simplifica este processo ao fornecer ferramentas de ponta a ponta para anotação de conjuntos de dados, treino na nuvem e implementação contínua de modelos. Quer estejas a ler artigos de ponta na ACM digital library ou nos arquivos de IEEE Xplore computer vision, a mudança para sistemas de visão altamente capazes e ajustados por instrução representa o limite da inteligência artificial. Ao emparelhar a perceção do YOLO26 com modelos de raciocínio ajustados, as organizações podem implementar agentes de IA incrivelmente robustos.






