Descubre cómo el ajuste de las instrucciones visuales permite a los modelos de lenguaje visual seguir las indicaciones humanas. Aprende a crear flujos de trabajo avanzados de IA utilizando Ultralytics .
El ajuste mediante instrucciones visuales es una técnica transformadora de aprendizaje automático que amplía los métodos tradicionales de procesamiento del lenguaje natural al ámbito multimodal. Al entrenar un modelo de visión y lenguaje (VLM) para que siga instrucciones humanas explícitas basadas en entradas de imagen o vídeo, los desarrolladores pueden crear asistentes de IA que comprendan y razonen sobre el contenido visual. A diferencia de los modelos estándar de clasificación de imágenes, que generan una categoría predefinida, el ajuste de instrucciones visuales permite a los modelos ejecutar tareas complejas y abiertas, como describir una escena, leer texto dentro de una imagen o responder a preguntas específicas sobre relaciones espaciales. Esto salva la brecha entre los grandes modelos de lenguaje (LLM) basados en texto y los flujos de trabajo tradicionales de visión artificial.
Para comprender el ajuste de las instrucciones visuales, resulta útil distinguirlo de otros conceptos estrechamente relacionados dentro del ecosistema de la IA:
El proceso de entrenamiento suele consistir en ajustar un modelo base multimodal preentrenado utilizando amplios conjuntos de datos formados por tríos de imagen-texto-instrucción. Investigaciones pioneras en arXiv sobre el ajuste mediante instrucciones visuales, como el proyecto LLaVA (Large Language-and-Vision Assistant), demostraron que estos modelos pueden alcanzar notables capacidades de aprendizaje sin entrenamiento previo. En la actualidad, las principales organizaciones de IA emplean esta técnica para impulsar modelos avanzados, entre los que se incluyen OpenAI GPT-4o, Anthropic 3.5 Sonnet y Google Gemini.
Al adaptar las arquitecturas de aprendizaje profundo multimodal a la intención humana, el ajuste de instrucciones visuales permite desarrollar aplicaciones altamente interactivas en diversos sectores:
Para crear sistemas que aprovechen estas capacidades, los desarrolladores suelen recurrir a sólidos modelos de detección de objetos para extraer el contexto estructural de las imágenes antes de pasar esos datos a un VLM. Mediante la documentaciónPyTorch o los modelosTensorFlow , los desarrolladores pueden crear flujos de trabajo híbridos.
Por ejemplo, puedes utilizar unYOLO Ultralytics para analizar rápidamente una escena y generar una indicación de texto bien fundamentada para un modelo de lenguaje visual (VLM) posterior:
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")
# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")
# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"
print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...
La gestión de los complejos conjuntos de datos multimodales que requieren estas aplicaciones de última generación puede resultar complicada. La Ultralytics simplifica este proceso al proporcionar herramientas integrales para la anotación de conjuntos de datos, el entrenamiento en la nube y la implementación fluida de modelos. Tanto si está leyendo artículos de vanguardia en la biblioteca digital de ACM como en los archivos de visión por ordenador de IEEE Xplore, el cambio hacia sistemas de visión altamente capaces y adaptados a las instrucciones representa la vanguardia de la inteligencia artificial. Al combinar la percepción de YOLO26 con modelos de razonamiento adaptados, las organizaciones pueden implementar agentes de IA increíblemente robustos.
Comience su viaje con el futuro del aprendizaje automático