Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Visual Instruction Tuning

Descubre cómo el ajuste de instrucciones visuales permite a los modelos de lenguaje y visión seguir directrices humanas. Aprende a crear flujos de trabajo de IA avanzados utilizando Ultralytics YOLO26.

El ajuste de instrucciones visuales es una técnica transformadora de aprendizaje automático que extiende los métodos tradicionales de procesamiento de lenguaje natural al dominio multimodal. Al entrenar un Vision Language Model (VLM) para que siga directrices humanas explícitas basadas en entradas de imagen o vídeo, los desarrolladores pueden crear asistentes de IA que comprendan y razonen sobre contenido visual. A diferencia de los modelos estándar de image classification que ofrecen una categoría predefinida, el ajuste de instrucciones visuales permite a los modelos ejecutar tareas complejas y abiertas, como describir una escena, leer texto dentro de una imagen o responder preguntas específicas sobre relaciones espaciales. Esto tiende un puente entre los large language models (LLMs) basados en texto y las tuberías tradicionales de computer vision.

Link to this sectionComprender el concepto y las distinciones#

Para entender el ajuste de instrucciones visuales, resulta útil distinguirlo de conceptos estrechamente relacionados en el ecosistema de la IA:

  • Instruction Tuning: Normalmente se refiere a alinear LLM que solo usan texto para seguir la intención humana de forma segura y precisa. El ajuste de instrucciones visuales aplica esta misma metodología, pero incorpora imágenes en el prompt y en el resultado esperado.
  • Visual Prompting: Suele implicar interactuar con una IA mediante señales visuales, como dibujar un cuadro delimitador, colocar un punto o enmascarar un área en una imagen, para guiar el enfoque del modelo. Por el contrario, el ajuste de instrucciones visuales depende en gran medida de comandos en lenguaje natural combinados con los datos visuales.

El proceso de entrenamiento generalmente implica realizar un fine-tuning de un modelo fundamental multimodal preentrenado utilizando conjuntos de datos extensos formateados como tripletes de imagen-texto-instrucción. Investigaciones pioneras de arXiv research on visual instruction tuning, como el proyecto LLaVA (Large Language-and-Vision Assistant), demostraron que estos modelos pueden lograr capacidades de zero-shot notables. Hoy en día, las principales organizaciones de IA emplean esta técnica para impulsar modelos avanzados, incluidos OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet y Google DeepMind Gemini.

Link to this sectionAplicaciones en el mundo real#

Al alinear arquitecturas de multimodal deep learning con la intención humana, el ajuste de instrucciones visuales abre el camino a aplicaciones altamente interactivas en diversos sectores:

  • AI in Healthcare Diagnostics: Los profesionales médicos pueden utilizar modelos con ajuste de instrucciones para Visual Question Answering (VQA). Un radiólogo podría solicitar al sistema con una radiografía y la instrucción: "Resalta y explica cualquier signo de neumonía en el lóbulo inferior izquierdo", lo que permite a la IA actuar como un asistente de diagnóstico colaborativo.
  • AI in Manufacturing Quality Control: En lugar de entrenar un modelo rígido de detección de defectos desde cero, los operadores pueden instruir a un sistema de visión como Microsoft Florence-2 indicando: "Identifica cualquier arañazo microscópico o hendidura en esta carcasa metálica recién fabricada".

Link to this sectionConstrucción de flujos de trabajo de visión#

Para construir sistemas que aprovechen estas capacidades, los desarrolladores suelen confiar en modelos robustos de object detection para extraer el contexto estructural de las imágenes antes de pasar esos datos a un VLM. Utilizando la PyTorch multi-modal documentation o los TensorFlow vision models, los desarrolladores pueden crear tuberías híbridas.

Por ejemplo, puedes usar un modelo Ultralytics YOLO para percibir rápidamente una escena y generar un prompt de lenguaje fundamentado para un VLM posterior:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

Gestionar los complejos conjuntos de datos multimodales necesarios para estas aplicaciones de última generación puede ser un reto. La Ultralytics Platform simplifica este proceso proporcionando herramientas integrales para la anotación de conjuntos de datos, el entrenamiento en la nube y el despliegue fluido de modelos. Tanto si lees artículos de vanguardia en la ACM digital library como en los archivos de IEEE Xplore computer vision, el giro hacia sistemas de visión altamente capaces y ajustados mediante instrucciones representa la vanguardia de la inteligencia artificial. Al combinar la percepción de YOLO26 con modelos de razonamiento ajustados, las organizaciones pueden desplegar agentes de IA increíblemente robustos.

Explore solutions

Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información
Real-time AI tailored to your operation

IA en la agricultura

Lleva la IA de visión a la agricultura inteligente con los modelos Ultralytics YOLO. Potencia el seguimiento de cultivos, el control de ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your operation

IA en la automoción

Aplica la visión artificial en la automoción con los modelos Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para lograr carreteras más inteligentes.

Más información
Real-time AI that works with your team

IA en el sector sanitario

Crea soluciones sanitarias con los modelos Ultralytics YOLO. La IA de visión en el sector sanitario potencia imágenes médicas más rápidas, diagnósticos más inteligentes y el seguimiento de pacientes.

Más información
Real-time AI that works with your team

IA en el comercio minorista

Reimagina el comercio minorista con los modelos Ultralytics YOLO. La IA de visión potencia el seguimiento de inventario, la supervisión de estanterías, la gestión de colas y conocimientos más inteligentes sobre los clientes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos YOLO de Ultralytics. La IA de visión impulsa el control de calidad, la detección de defectos, el cumplimiento de los EPI y la automatización de la línea de montaje.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial permite la inspección de paquetes, la clasificación, el seguimiento de vehículos y la supervisión de la seguridad en almacenes en tiempo real.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático