Entendiendo los modelos de lenguaje visual y sus aplicaciones
Aprende sobre los modelos de lenguaje visual, cómo funcionan y sus diversas aplicaciones en IA. Descubre cómo estos modelos combinan capacidades visuales y lingüísticas.

En un artículo anterior, exploramos cómo GPT-4o puede entender y describir imágenes usando palabras. También estamos viendo esta capacidad en otros modelos nuevos como Google Gemini y Claude 3. Hoy profundizamos en este concepto para explicar cómo funcionan los modelos de visión y lenguaje (VLM) y cómo combinan datos visuales y textuales.
Estos modelos se pueden utilizar para realizar una serie de tareas impresionantes, como generar pies de foto detallados, responder preguntas sobre imágenes e incluso crear nuevo contenido visual basado en descripciones textuales. Al integrar perfectamente la información visual y lingüística, los modelos de visión y lenguaje están cambiando nuestra forma de interactuar con la tecnología y entender el mundo que nos rodea.
Link to this sectionCómo funcionan los modelos de visión y lenguaje#
Antes de ver dónde se pueden utilizar los modelos de visión y lenguaje (VLM), comprendamos qué son y cómo funcionan. Los VLM son modelos avanzados de IA que combinan las capacidades de los modelos de visión y lenguaje para manejar tanto imágenes como texto. Estos modelos toman imágenes junto con sus descripciones textuales y aprenden a conectar ambas. La parte de visión del modelo captura detalles de las imágenes, mientras que la parte de lenguaje entiende el texto. Este trabajo en equipo permite a los VLM entender y analizar tanto imágenes como texto.
Estas son las capacidades clave de los modelos de visión y lenguaje:
- Creación de subtítulos para imágenes: Generación de texto descriptivo basado en el contenido de las imágenes.
- Respuesta visual a preguntas (VQA): Responder preguntas relacionadas con el contenido de una imagen.
- Conversión de texto a generación de imágenes: Creación de imágenes basadas en descripciones textuales.
- Recuperación de imagen-texto: Búsqueda de imágenes relevantes para una consulta de texto dada y viceversa.
- Creación de contenido multimodal: Combinación de imágenes y texto para generar contenido nuevo.
- Comprensión de escenas y detección de objetos: Identificación y categorización de objetos y detalles dentro de una imagen.

Fig 1. Un ejemplo de las capacidades de un modelo de visión y lenguaje.
A continuación, exploremos las arquitecturas VLM comunes y las técnicas de aprendizaje utilizadas por modelos conocidos como CLIP, SimVLM y VisualGPT.
Link to this sectionAprendizaje contrastivo#
El aprendizaje contrastivo es una técnica que ayuda a los modelos a aprender comparando las diferencias entre los puntos de datos. Calcula cuán similares o diferentes son las instancias y tiene como objetivo minimizar la pérdida contrastiva, que mide estas diferencias. Es especialmente útil en el aprendizaje semisupervisado, donde un pequeño conjunto de ejemplos etiquetados guía al modelo para etiquetar datos nuevos y no vistos. Por ejemplo, para entender cómo es un gato, el modelo lo compara con imágenes de gatos y perros similares. Al identificar características como la estructura facial, el tamaño corporal y el pelaje, las técnicas de aprendizaje contrastivo pueden diferenciar entre un gato y un perro.

Fig 2. Cómo funciona el aprendizaje contrastivo.
CLIP es un modelo de visión y lenguaje que utiliza el aprendizaje contrastivo para hacer coincidir descripciones de texto con imágenes. Funciona en tres pasos sencillos. Primero, entrena las partes del modelo que entienden tanto texto como imágenes. Segundo, convierte las categorías de un conjunto de datos en descripciones de texto. Tercero, identifica la descripción que mejor coincide con una imagen determinada. Gracias a este método, el modelo CLIP puede hacer predicciones precisas incluso para tareas para las que no ha sido entrenado específicamente.
Link to this sectionPrefixLM#
PrefixLM es una técnica de procesamiento del lenguaje natural (NLP) utilizada para entrenar modelos. Comienza con parte de una oración (un prefijo) y aprende a predecir la siguiente palabra. En los modelos de visión y lenguaje, PrefixLM ayuda al modelo a predecir las siguientes palabras basándose en una imagen y un fragmento de texto determinado. Utiliza un Vision Transformer (ViT), que divide una imagen en pequeños parches, cada uno representando una parte de la imagen, y los procesa en secuencia.

Fig 3. Un ejemplo de entrenamiento de un VLM que utiliza la técnica PrefixLM.
SimVLM es un VLM que utiliza la técnica de aprendizaje PrefixLM. Utiliza una arquitectura Transformer más sencilla en comparación con modelos anteriores, pero logra mejores resultados en varias pruebas. La arquitectura de su modelo implica aprender a asociar imágenes con prefijos de texto mediante un codificador transformer y luego generar texto utilizando un decodificador transformer.
Link to this sectionFusión multimodal con atención cruzada#
La fusión multimodal con atención cruzada es una técnica que mejora la capacidad de un modelo de visión y lenguaje preentrenado para comprender y procesar datos visuales. Funciona añadiendo capas de atención cruzada al modelo, lo que le permite prestar atención a la información visual y textual al mismo tiempo.
Así es como funciona:
- Se identifican y resaltan los objetos clave de una imagen.
- Los objetos resaltados son procesados por un codificador visual, traduciendo la información visual a un formato que el modelo pueda entender.
- La información visual se pasa a un decodificador, que interpreta la imagen utilizando el conocimiento del modelo de lenguaje preentrenado.
VisualGPT es un buen ejemplo de un modelo que utiliza esta técnica. Incluye una característica especial llamada unidad de activación autorresucitable (SRAU), que ayuda al modelo a evitar un problema común llamado gradientes que se desvanecen. Los gradientes que se desvanecen pueden hacer que los modelos pierdan información importante durante el entrenamiento, pero SRAU mantiene el rendimiento del modelo fuerte.

Fig 4. Arquitectura del modelo VisualGPT.
Link to this sectionAplicaciones de los modelos de visión y lenguaje#
Los modelos de visión y lenguaje están teniendo un impacto en una variedad de industrias. Desde la mejora de las plataformas de comercio electrónico hasta hacer que internet sea más accesible, las posibles aplicaciones de los VLM son emocionantes. Exploremos algunas de estas aplicaciones.
Link to this sectionGeneración de descripciones de productos#
Cuando compras online, ves descripciones detalladas de cada producto, pero crearlas puede llevar mucho tiempo. Los VLM agilizan este proceso al automatizar la generación de estas descripciones. Los minoristas online pueden generar directamente descripciones detalladas y precisas a partir de imágenes de productos utilizando modelos de visión y lenguaje.
Las descripciones de productos de alta calidad ayudan a los motores de búsqueda a identificar productos basándose en atributos específicos mencionados en la descripción. Por ejemplo, una descripción que contiene "manga larga" y "cuello de algodón" ayuda a los clientes a encontrar una "camisa de algodón de manga larga" más fácilmente. También ayuda a los clientes a encontrar lo que quieren rápidamente y, a su vez, aumenta las ventas y la satisfacción del cliente.

Fig 5. Un ejemplo de una descripción de producto generada por IA.
Los modelos de IA generativa, como BLIP-2, son ejemplos de VLM sofisticados que pueden predecir atributos de productos directamente a partir de imágenes. BLIP-2 utiliza varios componentes para entender y describir productos de comercio electrónico con precisión. Comienza procesando y entendiendo los aspectos visuales del producto con un codificador de imágenes. Luego, un transformer de consulta interpreta esta información visual en el contexto de preguntas o tareas específicas. Finalmente, un modelo de lenguaje grande genera descripciones de productos detalladas y precisas.
Link to this sectionHacer que internet sea más accesible#
Los modelos de visión y lenguaje pueden hacer que internet sea más accesible a través de la creación de subtítulos para imágenes, especialmente para personas con discapacidad visual. Tradicionalmente, los usuarios necesitan ingresar descripciones del contenido visual en sitios web y redes sociales. Por ejemplo, cuando publicas en Instagram, puedes agregar texto alternativo para lectores de pantalla. Sin embargo, los VLM pueden automatizar este proceso.
Cuando un VLM ve la imagen de un gato sentado en un sofá, puede generar el pie de foto "Un gato sentado en un sofá", haciendo que la escena sea clara para los usuarios con discapacidad visual. Los VLM utilizan técnicas como el prompting de pocos disparos (few-shot), donde aprenden de algunos ejemplos de pares imagen-pie de foto, y el prompting de cadena de pensamiento, que les ayuda a desglosar escenas complejas de forma lógica. Estas técnicas hacen que los pies de foto generados sean más coherentes y detallados.

Fig 6. Uso de IA para generar pies de foto de imágenes.
Con este fin, la función "Obtener descripciones de imágenes de Google" de Google en Chrome genera automáticamente descripciones para imágenes sin texto alternativo. Si bien estas descripciones generadas por IA pueden no ser tan detalladas como las escritas por humanos, siguen proporcionando información valiosa.
Link to this sectionBeneficios y limitaciones de los modelos de visión y lenguaje#
Los modelos de visión y lenguaje (VLM) ofrecen muchas ventajas al combinar datos visuales y textuales. Algunos de los beneficios clave incluyen:
- Mejor interacción humano-máquina: Permiten que los sistemas entiendan y respondan a entradas tanto visuales como textuales, mejorando los asistentes virtuales, los chatbots y la robótica.
- Diagnóstico y análisis avanzados: Ayudan en el campo médico analizando imágenes y generando descripciones, apoyando a los profesionales de la salud con segundas opiniones y detección de anomalías.
- Narración interactiva y entretenimiento: Generan narrativas atractivas combinando entradas visuales y textuales para mejorar las experiencias de usuario en juegos y realidad virtual.
A pesar de sus impresionantes capacidades, los modelos de visión y lenguaje también tienen ciertas limitaciones. Aquí hay algunas cosas a tener en cuenta cuando se trata de VLM:
- Altos requisitos computacionales: El entrenamiento y el despliegue de VLM requieren recursos computacionales sustanciales, lo que los hace costosos y menos accesibles.
- Dependencia de datos y sesgo: Los VLM pueden producir resultados sesgados si se entrenan con conjuntos de datos no diversos o sesgados, lo que puede perpetuar estereotipos y desinformación.
- Comprensión limitada del contexto: Los VLM pueden tener dificultades para entender el panorama general o el contexto y generar resultados simplificados en exceso o incorrectos.
Link to this sectionConclusiones clave#
Los modelos de visión y lenguaje tienen un potencial increíble en muchos campos, como el comercio electrónico y la atención sanitaria. Al combinar datos visuales y textuales, pueden impulsar la innovación y transformar las industrias. Sin embargo, desarrollar estas tecnologías de manera responsable y ética es esencial para garantizar que se utilicen de manera justa. A medida que los VLM sigan evolucionando, mejorarán tareas como la búsqueda basada en imágenes y las tecnologías de asistencia.
Para seguir aprendiendo sobre IA, ¡conecta con nuestra comunidad! Explora nuestro repositorio de GitHub para ver cómo estamos utilizando la IA para crear soluciones innovadoras en industrias como la fabricación y la atención sanitaria. 🚀






