Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Ajuste de la instrucción visual

Descubre cómo el ajuste de las instrucciones visuales permite a los modelos de lenguaje visual seguir las indicaciones humanas. Aprende a crear flujos de trabajo avanzados de IA utilizando Ultralytics .

El ajuste mediante instrucciones visuales es una técnica transformadora de aprendizaje automático que amplía los métodos tradicionales de procesamiento del lenguaje natural al ámbito multimodal. Al entrenar un modelo de visión y lenguaje (VLM) para que siga instrucciones humanas explícitas basadas en entradas de imagen o vídeo, los desarrolladores pueden crear asistentes de IA que comprendan y razonen sobre el contenido visual. A diferencia de los modelos estándar de clasificación de imágenes, que generan una categoría predefinida, el ajuste de instrucciones visuales permite a los modelos ejecutar tareas complejas y abiertas, como describir una escena, leer texto dentro de una imagen o responder a preguntas específicas sobre relaciones espaciales. Esto salva la brecha entre los grandes modelos de lenguaje (LLM) basados en texto y los flujos de trabajo tradicionales de visión artificial.

Comprender el concepto y las diferencias

Para comprender el ajuste de las instrucciones visuales, resulta útil distinguirlo de otros conceptos estrechamente relacionados dentro del ecosistema de la IA:

  • Ajuste de instrucciones: Por lo general, se refiere a la adaptación de los modelos de lenguaje grandes (LLM) basados únicamente en texto para que sigan la intención humana de forma segura y precisa. El ajuste de instrucciones visuales aplica esta misma metodología, pero incorpora imágenes tanto en la indicación como en el resultado esperado.
  • Pistas visuales: Por lo general, consiste en interactuar con una IA mediante señales visuales —como dibujar un rectángulo de delimitación, colocar un punto o enmascarar una zona de una imagen— para orientar la atención del modelo. Por el contrario, el ajuste mediante instrucciones visuales se basa en gran medida en comandos en lenguaje natural combinados con los datos visuales.

El proceso de entrenamiento suele consistir en ajustar un modelo base multimodal preentrenado utilizando amplios conjuntos de datos formados por tríos de imagen-texto-instrucción. Investigaciones pioneras en arXiv sobre el ajuste mediante instrucciones visuales, como el proyecto LLaVA (Large Language-and-Vision Assistant), demostraron que estos modelos pueden alcanzar notables capacidades de aprendizaje sin entrenamiento previo. En la actualidad, las principales organizaciones de IA emplean esta técnica para impulsar modelos avanzados, entre los que se incluyen OpenAI GPT-4o, Anthropic 3.5 Sonnet y Google Gemini.

Aplicaciones en el mundo real

Al adaptar las arquitecturas de aprendizaje profundo multimodal a la intención humana, el ajuste de instrucciones visuales permite desarrollar aplicaciones altamente interactivas en diversos sectores:

  • La IA en el diagnóstico sanitario: Los profesionales médicos pueden utilizar modelos entrenados con instrucciones para la respuesta visual a preguntas (VQA). Un radiólogo podría introducir en el sistema una radiografía junto con la instrucción: «Resalta y explica cualquier signo de neumonía en el lóbulo inferior izquierdo», lo que permitiría a la IA actuar como asistente colaborativo en el diagnóstico.
  • La IA en el control de calidad de la fabricación: En lugar de entrenar desde cero un modelo rígido de detección de defectos, los operadores pueden dar instrucciones a un sistema de visión como Microsoft diciendo: «Identifica cualquier arañazo o abolladura microscópica en esta carcasa metálica recién fabricada».

Creación de flujos de trabajo de visión

Para crear sistemas que aprovechen estas capacidades, los desarrolladores suelen recurrir a sólidos modelos de detección de objetos para extraer el contexto estructural de las imágenes antes de pasar esos datos a un VLM. Mediante la documentaciónPyTorch o los modelosTensorFlow , los desarrolladores pueden crear flujos de trabajo híbridos.

Por ejemplo, puedes utilizar unYOLO Ultralytics para analizar rápidamente una escena y generar una indicación de texto bien fundamentada para un modelo de lenguaje visual (VLM) posterior:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

La gestión de los complejos conjuntos de datos multimodales que requieren estas aplicaciones de última generación puede resultar complicada. La Ultralytics simplifica este proceso al proporcionar herramientas integrales para la anotación de conjuntos de datos, el entrenamiento en la nube y la implementación fluida de modelos. Tanto si está leyendo artículos de vanguardia en la biblioteca digital de ACM como en los archivos de visión por ordenador de IEEE Xplore, el cambio hacia sistemas de visión altamente capaces y adaptados a las instrucciones representa la vanguardia de la inteligencia artificial. Al combinar la percepción de YOLO26 con modelos de razonamiento adaptados, las organizaciones pueden implementar agentes de IA increíblemente robustos.

¡Construyamos juntos el futuro de la IA!

Comience su viaje con el futuro del aprendizaje automático