Glosario

Generación de Recuperación Aumentada (RAG)

Descubra cómo Retrieval Augmented Generation (RAG) mejora los modelos de IA integrando datos externos fiables y en tiempo real para obtener respuestas precisas y actualizadas.

Retrieval-Augmented Generation (RAG) es un marco avanzado de IA diseñado para mejorar la calidad, precisión y pertinencia de las respuestas generadas por Large Language Models (LLM). Funciona conectando un modelo generativo a una base de conocimientos externa y actualizada. Esto permite que el modelo "recupere" información relevante antes de generar una respuesta, basando eficazmente su resultado en hechos verificables y reduciendo la probabilidad de alucinaciones o respuestas obsoletas. RAG hace que los LLM sean más fiables en tareas que requieren muchos conocimientos, ya que les da acceso a información especializada o patentada con la que no han sido formados.

Cómo funciona la generación mejorada por recuperación

El proceso GAR puede dividirse en dos etapas principales: recuperación y generación. Este enfoque de doble etapa combina los puntos fuertes de los sistemas de recuperación de información y los modelos generativos.

  1. Recuperación: Cuando un usuario plantea una pregunta, el sistema RAG la utiliza para buscar información relevante en una fuente de conocimiento. Esta fuente suele ser una base de datos vectorial que contiene incrustaciones de documentos, artículos u otros datos. El componente recuperador identifica y extrae los fragmentos de texto o datos más relevantes en función de la consulta del usuario. Un paso opcional pero potente es utilizar un reranker para refinar estos resultados recuperados, garantizando que sólo se transmita la información contextualmente más importante.
  2. Generación aumentada: La información recuperada se combina con la petición original del usuario. Esta información nueva y enriquecida se introduce en el modelo generativo de IA (el LLM). El modelo utiliza este contexto añadido para formular una respuesta completa, precisa y pertinente. Frameworks como LangChain y LlamaIndex se utilizan habitualmente para construir y gestionar estas complejas canalizaciones RAG.

Aplicaciones y ejemplos

El GAR es especialmente útil en escenarios que requieren precisión factual y acceso a datos dinámicos o especializados.

  • Sistemas avanzados de respuesta a preguntas: Un chatbot de atención al cliente puede utilizar RAG para acceder a toda la base de conocimientos de una empresa sobre manuales de productos, guías de solución de problemas y documentos normativos. Cuando un cliente pregunta: "¿Cuál es la política de garantía de mi producto?", el sistema recupera el último documento de garantía y lo utiliza para dar una respuesta precisa y actualizada, lo que supone una mejora significativa respecto a las respuestas genéricas.
  • Creación de contenidos e investigación: Un analista financiero podría utilizar una herramienta basada en GAR para redactar un resumen de mercado. La herramienta podría recuperar los últimos informes financieros, noticias del mercado y datos sobre el rendimiento de las acciones de fuentes fiables como Bloomberg o Reuters. A continuación, el LLM sintetiza esta información en un informe coherente, completo con citas, lo que acelera enormemente el proceso de investigación.

RAG frente a conceptos afines

Resulta útil distinguir la GAR de otros métodos utilizados para mejorar el rendimiento del LLM:

  • Ajuste fino: El ajuste fino adapta un modelo preentrenado continuando el entrenamiento en un conjunto de datos más pequeño y especializado, lo que modifica los pesos internos del modelo. A diferencia de la GAR, no consulta datos externos durante la inferencia. El ajuste fino es ideal para enseñar a un modelo un nuevo estilo o habilidad, mientras que la GAR es mejor para incorporar conocimientos factuales. Estos enfoques también pueden ser complementarios.
  • Ingeniería de avisos: Se trata del proceso manual de diseñar cuidadosamente las instrucciones para obtener los resultados deseados de un LLM. RAG automatiza una parte de este proceso añadiendo ("aumentando") mediante programación los datos recuperados, en lugar de depender de que un humano proporcione manualmente todo el contexto.
  • Enriquecimiento rápido: Aunque es similar a RAG, el enriquecimiento de avisos es un término más amplio. Puede consistir en añadir contexto a partir del historial del usuario o del flujo de la conversación. RAG es un tipo específico de enriquecimiento centrado en recuperar información factual de una base de conocimiento externa para fundamentar la respuesta del modelo.

GAR en visión por ordenador

Aunque la RAG se utiliza sobre todo en el Procesamiento del Lenguaje Natural (PLN), su concepto básico se está explorando para tareas de visión por ordenador (VC). Por ejemplo, un sistema podría recuperar información visual relevante para guiar la generación o el análisis de imágenes. Esto podría implicar la búsqueda de imágenes similares en un gran conjunto de datos para mejorar el rendimiento de un modelo de detección de objetos como Ultralytics YOLO. La gestión de estos complejos modelos y conjuntos de datos se agiliza con plataformas como Ultralytics HUB, que podría servir de base para futuras aplicaciones de modelos multimodales que utilicen RAG. Puede explorar una implementación relacionada en nuestro blog sobre la mejora de la IA con RAG y la visión por ordenador.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles