Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Configuración de cookies
Al hacer clic en "Aceptar todas las cookies", usted acepta el almacenamiento de cookies en su dispositivo para mejorar la navegación por el sitio, analizar el uso del sitio y ayudar en nuestros esfuerzos de marketing. Más información en
Descubra cómo la combinación de la generación aumentada por recuperación (RAG) con la visión por ordenador está ayudando a los sistemas de IA a interpretar documentos, imágenes y contenidos complejos del mundo real.
Utilizar herramientas de IA como ChatGPT o Gemini se está convirtiendo rápidamente en una forma habitual de encontrar información. Ya sea para redactar un mensaje, resumir un documento o responder a una pregunta, estas herramientas suelen ofrecer una solución más rápida y sencilla.
Pero si ha utilizado grandes modelos lingüísticos (LLM ) en varias ocasiones, es probable que se haya dado cuenta de sus limitaciones. Cuando se les plantean consultas muy específicas o urgentes, pueden responder con respuestas incorrectas, a menudo con seguridad.
Esto ocurre porque los LLM autónomos se basan únicamente en los datos con los que fueron entrenados. No tienen acceso a las últimas actualizaciones ni a conocimientos especializados más allá de ese conjunto de datos. Como resultado, sus respuestas pueden ser obsoletas o inexactas.
Para resolver este problema, los investigadores han desarrollado un método denominado generación mejorada por recuperación (RAG). RAG mejora los modelos lingüísticos al permitirles obtener información nueva y relevante de fuentes fiables cuando responden a consultas.
En este artículo veremos cómo funciona la GAR y cómo mejora las herramientas de IA recuperando información relevante y actualizada. También veremos cómo funciona junto con la visión por ordenador, un campo de la inteligencia artificial centrado en la interpretación de datos visuales, para ayudar a los sistemas a comprender no solo texto, sino también imágenes, diseños y documentos visualmente complejos.
Comprender la generación aumentada por recuperación (RAG)
Cuando hacemos una pregunta a un chatbot de IA, generalmente esperamos algo más que una respuesta que suene bien. Lo ideal es que una buena respuesta sea clara, precisa y realmente útil. Para ello, el modelo de IA necesita algo más que habilidades lingüísticas; también necesita acceder a la información adecuada, especialmente para temas específicos o urgentes.
RAG es una técnica que ayuda a salvar esta distancia. Combina la capacidad del modelo lingüístico para comprender y generar texto con la capacidad para recuperar información relevante de fuentes externas. En lugar de basarse únicamente en sus datos de entrenamiento, el modelo extrae activamente contenidos de apoyo de bases de conocimiento fiables mientras elabora su respuesta.
Fig. 1. Principales casos de uso del GAR. Imagen del autor.
Es como hacer una pregunta a alguien y pedirle que consulte una referencia fiable antes de responder. La respuesta sigue siendo suya, pero se basa en la información más relevante y actualizada.
Este enfoque ayuda a los LLM a responder con respuestas más completas, precisas y adaptadas a la consulta del usuario, lo que los hace mucho más fiables en aplicaciones del mundo real en las que la precisión es realmente importante.
Funcionamiento de los GAR
RAG mejora la respuesta de un gran modelo lingüístico introduciendo dos pasos clave: recuperación y generación. En primer lugar, recupera la información pertinente de una base de conocimientos externa. A continuación, utiliza esa información para generar una respuesta bien formada y adaptada al contexto.
Veamos un ejemplo sencillo para ver cómo funciona este proceso. Imagina que utilizas un asistente de IA para gestionar tus finanzas personales y quieres comprobar si te has mantenido dentro de tu objetivo de gasto del mes.
El proceso comienza cuando le haces al asistente una pregunta del tipo: "¿Me he ceñido a mi presupuesto este mes?". En lugar de basarse únicamente en lo que ha aprendido durante la formación, el sistema utiliza un recuperador para buscar en tus registros financieros más recientes (como extractos bancarios o resúmenes de transacciones). Se centra en comprender la intención de la pregunta y recopila la información más relevante.
Una vez recuperada esa información, el modelo lingüístico toma el relevo. Procesa tanto su pregunta como los datos extraídos de sus registros para generar una respuesta clara y útil. En lugar de enumerar los datos en bruto, la respuesta resume sus gastos y le ofrece una visión directa y significativa, por ejemplo, confirmando si ha alcanzado su objetivo y señalando las principales áreas de gasto.
Este enfoque ayuda al LLM a proporcionar respuestas que no sólo son precisas, sino que también se basan en su información real y actualizada, lo que hace que la experiencia sea mucho más útil que un modelo que sólo trabaja con datos de entrenamiento estáticos.
Normalmente, la información no siempre se comparte en texto plano. Desde escáneres y diagramas médicos hasta diapositivas de presentaciones y documentos escaneados, los elementos visuales suelen contener detalles importantes. Los LLM tradicionales, creados principalmente para leer y comprender texto, pueden tener problemas con este tipo de contenido.
Sin embargo, la GAR puede utilizarse junto con la visión por ordenador para salvar esa distancia. Cuando ambos se unen, forman lo que se conoce como sistema RAG multimodal: una configuración que puede manejar tanto texto como imágenes, lo que ayuda a los chatbots de IA a ofrecer respuestas más precisas y completas.
El núcleo de este enfoque son los modelos de visión y lenguaje (VLM), diseñados para procesar y razonar sobre ambos tipos de datos. En esta configuración, el GAR recupera la información más relevante de grandes fuentes de datos, mientras que el VLM, gracias a la visión por ordenador, interpreta imágenes, diseños y diagramas.
Esto es especialmente útil para documentos del mundo real, como formularios escaneados, informes médicos o diapositivas de presentaciones, en los que pueden encontrarse detalles vitales tanto en el texto como en los elementos visuales. Por ejemplo, al analizar un documento que incluye imágenes junto a tablas y párrafos, un sistema multimodal puede extraer elementos visuales, generar un resumen de lo que muestran y combinarlo con el texto circundante para ofrecer una respuesta más completa y útil.
Fig. 3. El GAR multimodal utiliza imágenes y texto para ofrecer mejores respuestas.
Aplicaciones del GAR a los datos visuales
Ahora que ya sabemos qué es la GAR y cómo funciona con la visión por ordenador, veamos algunos ejemplos reales y proyectos de investigación que muestran cómo se utiliza este enfoque.
Comprender los documentos visuales con VisRAG
Supongamos que está intentando extraer información de un informe financiero o de un documento jurídico escaneado. Estos tipos de archivos suelen incluir no sólo texto, sino también tablas, gráficos y diseños que ayudan a explicar la información. Un modelo lingüístico sencillo podría pasar por alto o malinterpretar estos elementos visuales, lo que daría lugar a respuestas incompletas o inexactas.
VisRAG fue creado por investigadores para hacer frente a este reto. Se trata de un proceso RAG basado en VLM que trata cada página como una imagen en lugar de procesar sólo el texto. Esto permite al sistema comprender tanto el contenido como su estructura visual. Como resultado, puede encontrar las partes más relevantes y dar respuestas más claras, precisas y basadas en el contexto completo del documento.
Fig. 4. VisRAG puede leer documentos como imágenes para capturar el contenido textual y el diseño.
Respuesta visual a preguntas con RAG
La respuesta a preguntas visuales (VQA) es una tarea en la que un sistema de IA responde a preguntas sobre imágenes. Muchos de los sistemas VQA existentes se centran en responder preguntas sobre un único documento sin necesidad de buscar información adicional, lo que se conoce como un entorno cerrado.
VDocRAG es un marco RAG que adopta un enfoque más realista. Integra el VQA con la capacidad de recuperar primero los documentos pertinentes. Esto resulta útil en situaciones reales en las que la pregunta de un usuario puede aplicarse a uno de muchos documentos, y el sistema necesita encontrar el correcto antes de responder. Para ello, VDocRAG utiliza VLM para analizar documentos como imágenes, conservando tanto su texto como su estructura visual.
Esto hace que VDocRAG tenga un impacto especial en aplicaciones como la búsqueda empresarial, la automatización de documentos y la atención al cliente. Puede ayudar a los equipos a extraer rápidamente respuestas de documentos complejos con formato visual, como manuales o archivos de políticas, en los que comprender el diseño es tan importante como leer las palabras.
Fig. 5. Diferencia entre las soluciones basadas en VDocRAG y LLM.
Mejora del subtitulado de imágenes con RAG
El subtitulado de imágenes consiste en generar una descripción escrita de lo que ocurre en una imagen. Se utiliza en una gran variedad de aplicaciones: desde hacer más accesibles los contenidos en línea hasta potenciar la búsqueda de imágenes, pasando por apoyar la moderación de contenidos y los sistemas de recomendación.
Sin embargo, generar subtítulos precisos no siempre es fácil para los modelos de IA. Es especialmente difícil cuando la imagen muestra algo distinto de lo que se ha entrenado al modelo. Muchos sistemas de subtitulación dependen en gran medida de los datos de entrenamiento, por lo que cuando se enfrentan a escenas desconocidas, sus subtítulos pueden resultar vagos o imprecisos.
Para solucionar este problema, los investigadores desarrollaron Re-ViLM, un método que incorpora la generación aumentada por recuperación (RAG) al subtitulado de imágenes. En lugar de generar un pie de foto desde cero, Re-ViLM recupera pares imagen-texto similares de una base de datos y los utiliza para guiar el resultado del pie de foto.
Este enfoque basado en la recuperación ayuda al modelo a basar sus descripciones en ejemplos relevantes, lo que mejora tanto la precisión como la fluidez. Los primeros resultados muestran que Re-ViLM genera pies de foto más naturales y contextualizados gracias a ejemplos reales, lo que ayuda a reducir las descripciones vagas o imprecisas.
Fig. 6. Re-ViLM mejora los pies de foto recuperando ejemplos de texto visual.
Ventajas e inconvenientes de utilizar la GAR para comprender datos visuales
He aquí un rápido vistazo a las ventajas de aplicar técnicas de generación aumentada de recuperación para recuperar y utilizar información visual:
mejorado integración mejoradas: Los resúmenes pueden incorporar información visual (como tendencias gráficas o elementos infográficos), no sólo texto.
Búsqueda y recuperación más sólidas: Los pasos de recuperación pueden identificar páginas visuales relevantes incluso cuando las palabras clave no están presentes en el texto, utilizando la comprensión basada en imágenes.
Compatibilidad con documentos escaneados, manuscritos o basados en imágenes: Las canalizaciones RAG habilitadas por los VLM pueden procesar contenidos que serían ilegibles para los modelos de sólo texto.
A pesar de estas ventajas, hay que tener en cuenta algunas limitaciones cuando se utiliza RAG para trabajar con datos visuales. He aquí algunas de las principales:
Altos requisitos informáticos: Analizar tanto imágenes como texto requiere más memoria y capacidad de procesamiento, lo que puede ralentizar el rendimiento o aumentar los costes.
Protección de datos y seguridad de los datos: Los documentos visuales, especialmente en sectores como la sanidad o las finanzas, pueden contener información sensible que complica los flujos de trabajo de recuperación y procesamiento.
Tiempos de inferencia más largos: Dado que el procesamiento visual añade complejidad, generar respuestas puede llevar más tiempo en comparación con los sistemas de sólo texto.
Principales conclusiones
La generación aumentada por recuperación está mejorando la forma en que los grandes modelos lingüísticos responden a las preguntas al permitirles obtener información relevante y actualizada de fuentes externas. Cuando se combinan con la visión por ordenador, estos sistemas pueden procesar no solo texto, sino también contenido visual, como gráficos, tablas, imágenes y documentos escaneados, lo que da lugar a respuestas más precisas y completas.
Este enfoque hace que los LLM sean más adecuados para tareas del mundo real en las que intervienen documentos complejos. Al aunar la recuperación y la comprensión visual, estos modelos pueden interpretar diversos formatos con mayor eficacia y proporcionar información más útil en contextos prácticos y cotidianos.