Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Modelo de lenguaje visual (VLM)

Explora los modelos de lenguaje visual (VLM) con Ultralytics. Descubre cómo conectan la visión artificial y los LLM para la detección de vocabulario abierto y VQA utilizando Ultralytics .

Un modelo de lenguaje visual (VLM) es un tipo de inteligencia artificial que puede procesar e interpretar tanto información visual (imágenes o vídeo) como textual de forma simultánea. A diferencia de los modelos tradicionales de visión por ordenador, que se centran únicamente en datos de píxeles, o de los modelos de lenguaje grandes (LLM), que solo entienden texto, los VLM salvan la brecha entre estas dos modalidades. Al entrenarse con conjuntos de datos masivos que contienen pares de imágenes y texto, estos modelos aprenden a asociar características visuales con conceptos lingüísticos, lo que les permite describir imágenes, responder preguntas sobre escenas visuales e incluso ejecutar comandos basados en lo que «ven».

Cómo funcionan los modelos de lenguaje visual

En esencia, los VLM suelen constar de dos componentes principales: un codificador de visión y un codificador de texto. El codificador de visión procesa las imágenes para extraer mapas de características y representaciones visuales , mientras que el codificador de texto se encarga de la entrada lingüística. A continuación, estas distintas corrientes de datos se fusionan mediante mecanismos como la atención cruzada para alinear la información visual y textual en un espacio de incrustación compartido.

Los avances recientes en 2024 y 2025 han avanzado hacia arquitecturas más unificadas en las que una única red troncal de transformadores gestiona ambas modalidades. Por ejemplo, modelos como Google 2 demuestran cómo la integración eficaz de estas corrientes puede mejorar el rendimiento en tareas de razonamiento complejo. Esta alineación permite al modelo comprender el contexto, como reconocer que la palabra «manzana» se refiere a una fruta en la imagen de una tienda de comestibles, pero a una empresa tecnológica en un logotipo.

Aplicaciones en el mundo real

La capacidad de comprender el mundo a través de la vista y el lenguaje abre diversas aplicaciones en varias industrias:

  • Respuesta visual a preguntas (VQA): Los VLM se utilizan mucho en el diagnóstico sanitario para ayudar a los radiólogos. Un médico puede preguntar al sistema: «¿Hay alguna fractura en esta radiografía?», y el modelo analiza la imagen médica para ofrecer una evaluación preliminar, lo que reduce los errores de diagnóstico.
  • Búsqueda inteligente en comercio electrónico: En entornos minoristas, los VLM permiten a los usuarios buscar productos utilizando descripciones en lenguaje natural combinadas con imágenes. Un comprador podría subir una foto del atuendo de una celebridad y pedir: «Búscame un vestido con este estampado, pero en azul», y el sistema utilizaría la búsqueda semántica para encontrar resultados precisos.
  • Subtitulado automatizado y accesibilidad: los VLM generan automáticamente texto alternativo descriptivo para las imágenes de la web, lo que hace que el contenido digital sea más accesible para los usuarios con discapacidad visual que dependen de lectores de pantalla.

Diferenciación entre los VLM y conceptos relacionados

Es útil distinguir los VLM de otras categorías de IA para comprender su función específica:

  • VLM frente a LLM: un modelo de lenguaje grande (como las versiones solo de texto de GPT-4 ) procesa únicamente datos de texto. Aunque puede generar historias creativas o código, no puede «ver» una imagen. Un VLM proporciona efectivamente ojos a un LLM.
  • VLM frente a detección de objetos: los modelos tradicionales de detección de objetos, como las primeras versiones YOLO , identifican dónde se encuentran los objetos y a qué clase pertenecen (por ejemplo, «Coche: 99 %»). Un VLM va más allá al comprender las relaciones y los atributos, como «un coche deportivo rojo aparcado junto a una boca de incendios».
  • VLM frente a IA multimodal: La IA multimodal es un término genérico más amplio. Si bien todos los VLM son multimodales (combinan visión y lenguaje), no todos los modelos multimodales son VLM; algunos pueden combinar audio y texto (como la conversión de voz a texto) o vídeo y datos de sensores sin un componente lingüístico.

Detección de vocabulario abierto con YOLO

Los VLM modernos permiten la detección de «vocabulario abierto», en la que se pueden detect utilizando indicaciones de texto de formato libre en lugar de clases predefinidas. Esta es una característica clave de modelos como Ultralytics YOLO, que permite definiciones de clases dinámicas sin necesidad de volver a entrenar.

El siguiente ejemplo muestra cómo utilizar la función ultralytics paquete para detect descritos por texto:

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

Desafíos y futuras direcciones

Aunque son potentes, los modelos de lenguaje visual se enfrentan a retos importantes. Uno de los principales problemas es la alucinación, en la que el modelo describe con seguridad objetos o texto en una imagen que simplemente no están ahí. Los investigadores están trabajando activamente en técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) para mejorar la base y la precisión.

Otro reto es el coste computacional. El entrenamiento de estos modelos masivos requiere importantes GPU . Sin embargo, el lanzamiento de arquitecturas eficientes como Ultralytics está ayudando a llevar capacidades de visión avanzadas a los dispositivos periféricos. A medida que avancemos, esperamos que los VLM desempeñen un papel crucial en los agentes robóticos, permitiendo a los robots navegar y manipular objetos basándose en instrucciones verbales complejas.

Para aquellos interesados en los fundamentos teóricos, el artículo original CLIP de OpenAI ofrece una excelente perspectiva sobre el preentrenamiento contrastivo de lenguaje e imagen. Además, mantenerse al día con los artículos de la conferencia CVPR es esencial para seguir la rápida evolución de estas arquitecturas. Para experimentar con el entrenamiento de sus propios modelos de visión, puede utilizar Ultralytics para una gestión optimizada de los conjuntos de datos y la implementación de modelos .

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora