Visual Instruction Tuning

Descubre cómo el ajuste de instrucciones visuales permite a los modelos de lenguaje y visión seguir directrices humanas. Aprende a crear flujos de trabajo de IA avanzados utilizando Ultralytics YOLO26.

El ajuste de instrucciones visuales es una técnica transformadora de aprendizaje automático que extiende los métodos tradicionales de procesamiento de lenguaje natural al dominio multimodal. Al entrenar un Vision Language Model (VLM) para que siga directrices humanas explícitas basadas en entradas de imagen o vídeo, los desarrolladores pueden crear asistentes de IA que comprendan y razonen sobre contenido visual. A diferencia de los modelos estándar de image classification que ofrecen una categoría predefinida, el ajuste de instrucciones visuales permite a los modelos ejecutar tareas complejas y abiertas, como describir una escena, leer texto dentro de una imagen o responder preguntas específicas sobre relaciones espaciales. Esto tiende un puente entre los large language models (LLMs) basados en texto y las tuberías tradicionales de computer vision.

Link to this sectionComprender el concepto y las distinciones#

Para entender el ajuste de instrucciones visuales, resulta útil distinguirlo de conceptos estrechamente relacionados en el ecosistema de la IA:

Instruction Tuning: Normalmente se refiere a alinear LLM que solo usan texto para seguir la intención humana de forma segura y precisa. El ajuste de instrucciones visuales aplica esta misma metodología, pero incorpora imágenes en el prompt y en el resultado esperado.
Visual Prompting: Suele implicar interactuar con una IA mediante señales visuales, como dibujar un cuadro delimitador, colocar un punto o enmascarar un área en una imagen, para guiar el enfoque del modelo. Por el contrario, el ajuste de instrucciones visuales depende en gran medida de comandos en lenguaje natural combinados con los datos visuales.

El proceso de entrenamiento generalmente implica realizar un fine-tuning de un modelo fundamental multimodal preentrenado utilizando conjuntos de datos extensos formateados como tripletes de imagen-texto-instrucción. Investigaciones pioneras de arXiv research on visual instruction tuning, como el proyecto LLaVA (Large Language-and-Vision Assistant), demostraron que estos modelos pueden lograr capacidades de zero-shot notables. Hoy en día, las principales organizaciones de IA emplean esta técnica para impulsar modelos avanzados, incluidos OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet y Google DeepMind Gemini.

Link to this sectionAplicaciones en el mundo real#

Al alinear arquitecturas de multimodal deep learning con la intención humana, el ajuste de instrucciones visuales abre el camino a aplicaciones altamente interactivas en diversos sectores:

AI in Healthcare Diagnostics: Los profesionales médicos pueden utilizar modelos con ajuste de instrucciones para Visual Question Answering (VQA). Un radiólogo podría solicitar al sistema con una radiografía y la instrucción: "Resalta y explica cualquier signo de neumonía en el lóbulo inferior izquierdo", lo que permite a la IA actuar como un asistente de diagnóstico colaborativo.
AI in Manufacturing Quality Control: En lugar de entrenar un modelo rígido de detección de defectos desde cero, los operadores pueden instruir a un sistema de visión como Microsoft Florence-2 indicando: "Identifica cualquier arañazo microscópico o hendidura en esta carcasa metálica recién fabricada".

Link to this sectionConstrucción de flujos de trabajo de visión#

Para construir sistemas que aprovechen estas capacidades, los desarrolladores suelen confiar en modelos robustos de object detection para extraer el contexto estructural de las imágenes antes de pasar esos datos a un VLM. Utilizando la PyTorch multi-modal documentation o los TensorFlow vision models, los desarrolladores pueden crear tuberías híbridas.

Por ejemplo, puedes usar un modelo Ultralytics YOLO para percibir rápidamente una escena y generar un prompt de lenguaje fundamentado para un VLM posterior:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

Gestionar los complejos conjuntos de datos multimodales necesarios para estas aplicaciones de última generación puede ser un reto. La Ultralytics Platform simplifica este proceso proporcionando herramientas integrales para la anotación de conjuntos de datos, el entrenamiento en la nube y el despliegue fluido de modelos. Tanto si lees artículos de vanguardia en la ACM digital library como en los archivos de IEEE Xplore computer vision, el giro hacia sistemas de visión altamente capaces y ajustados mediante instrucciones representa la vanguardia de la inteligencia artificial. Al combinar la percepción de YOLO26 con modelos de razonamiento ajustados, las organizaciones pueden desplegar agentes de IA increíblemente robustos.

Visual Instruction Tuning

Link to this sectionComprender el concepto y las distinciones#

Link to this sectionAplicaciones en el mundo real#

Link to this sectionConstrucción de flujos de trabajo de visión#

Explore solutions

IA en la agricultura

IA en la automoción

IA en el sector sanitario

IA en el comercio minorista

IA en robótica

IA en la fabricación

IA en logística

IA en la agricultura

IA en la automoción

IA en el sector sanitario

IA en el comercio minorista

IA en robótica

IA en la fabricación

IA en logística

IA en la agricultura

IA en la automoción

IA en el sector sanitario

IA en el comercio minorista

IA en robótica

IA en la fabricación

IA en logística

¡Construyamos juntos el futuro de la IA!