Retrieval Augmented Generation (RAG)
Explora cómo la generación aumentada por recuperación (RAG) optimiza los LLM con datos en tiempo real. Aprende a crear tuberías multimodales usando Ultralytics YOLO26 para RAG visual.
La generación aumentada por recuperación (RAG) es una técnica avanzada en el campo de la inteligencia artificial que optimiza la salida de un Large Language Model (LLM) mediante la referencia a una base de conocimiento autorizada externa a sus datos de entrenamiento. Los modelos generativos tradicionales dependen exclusivamente de información estática aprendida durante su entrenamiento inicial, lo que puede derivar en respuestas obsoletas o imprecisiones seguras de sí mismas conocidas como alucinaciones. RAG salva esta brecha al recuperar información relevante y actualizada de fuentes externas —como bases de datos corporativas, noticias actuales o manuales técnicos— y proporcionársela al modelo como contexto antes de generar una respuesta. Este proceso garantiza que los resultados de la IA no solo sean lingüísticamente coherentes, sino también factualmente precisos y fundamentados en datos específicos.
Link to this sectionCómo funcionan los sistemas RAG#
La arquitectura de un sistema RAG suele involucrar dos fases principales: recuperación y generación. Este flujo de trabajo permite a los desarrolladores mantener un modelo base sin la costosa necesidad de volver a entrenarlo con frecuencia.
-
Recuperación: Cuando un usuario envía una consulta, el sistema realiza primero una búsqueda semántica en un sistema de almacenamiento especializado llamado base de datos vectorial. Esta base de datos contiene datos que han sido convertidos en representaciones numéricas conocidas como embeddings, permitiendo al sistema encontrar información conceptualmente similar en lugar de solo coincidir palabras clave.
-
Generación: Los documentos o fragmentos de datos relevantes encontrados durante la recuperación se combinan con la pregunta original del usuario. Este prompt enriquecido se envía entonces al modelo generativo. El modelo utiliza este contexto proporcionado para sintetizar una respuesta, asegurando que la respuesta se base en los hechos recuperados. Para profundizar en la mecánica, IBM ofrece una guía completa sobre los flujos de trabajo RAG.
Link to this sectionRAG visual: integración de visión por ordenador#
Aunque RAG es tradicionalmente basado en texto, el auge del aprendizaje multimodal ha introducido el "RAG visual". En este escenario, los modelos de visión por ordenador actúan como el mecanismo de recuperación. Estos analizan imágenes o flujos de vídeo para extraer datos textuales estructurados —como nombres de objetos, conteos o actividades—, los cuales se introducen en un LLM para responder preguntas sobre la escena visual.
Por ejemplo, un desarrollador puede usar YOLO26 para detectar objetos en una imagen y pasar esa lista de objetos a un modelo de texto para generar un informe descriptivo.
from ultralytics import YOLO
# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")
# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."
print(context_string)
# Output example: "The scene contains: bus, person, person, person."Link to this sectionAplicaciones en el mundo real#
RAG está transformando industrias al permitir que los agentes de IA accedan a datos privados o en tiempo real de forma segura.
- Bases de conocimiento empresariales: Las empresas usan RAG para crear chatbots internos que responden a preguntas de los empleados sobre políticas de RR. HH. o documentación técnica. Al conectar un LLM a un repositorio de documentos en vivo, el sistema evita proporcionar información de políticas obsoletas. Para más información sobre implementaciones empresariales, consulta la visión general de RAG en Vertex AI de Google Cloud.
- Apoyo a la toma de decisiones clínicas: En la IA en el sector sanitario, los sistemas RAG pueden recuperar el historial del paciente y artículos de investigación médica recientes para ayudar a los médicos en el diagnóstico, asegurando que el consejo considere los estudios clínicos más actuales.
- Asistentes inteligentes para el comercio minorista: Las aplicaciones que utilizan IA en el comercio minorista aprovechan RAG para consultar bases de datos de inventario en vivo. Si un cliente pregunta a un chatbot: "¿Tenéis estas zapatillas de correr en talla 44?", el modelo recupera los niveles de stock en tiempo real antes de responder, evitando la frustración por artículos agotados.
Link to this sectionRAG frente al ajuste fino (fine-tuning)#
Es crucial distinguir RAG del ajuste fino, ya que resuelven problemas diferentes.
- RAG (Generación aumentada por recuperación): Ideal para acceder a datos dinámicos que cambian con frecuencia (por ejemplo, precios de acciones, noticias) o datos privados no presentes en el conjunto de entrenamiento público. Se centra en proporcionar nueva información durante el tiempo de ejecución.
- Ajuste fino: Ideal para adaptar el comportamiento, el estilo o la terminología del modelo. Implica actualizar los pesos del modelo en un conjunto de datos específico. Aunque el ajuste fino ayuda a un modelo a aprender un patrón lingüístico concreto (como la jerga médica), no concede acceso a hechos en tiempo real. Consulta la guía de OpenAI sobre el ajuste fino frente a RAG para obtener marcos de toma de decisiones.
Link to this sectionConceptos relacionados#
- LangChain: Un popular framework de código abierto diseñado específicamente para simplificar la creación de aplicaciones RAG mediante el encadenamiento de recuperadores y LLMs.
- Grafo de conocimiento: Una forma estructurada de representar datos que puede utilizarse como fuente de recuperación, ofreciendo relaciones contextualmente más ricas que la simple similitud vectorial.
- Ingeniería de prompts: El arte de elaborar entradas para guiar al modelo. RAG es, esencialmente, una forma automatizada de ingeniería de prompts donde el "prompt" se enriquece con datos recuperados de forma programática.
- Plataforma Ultralytics: Si bien RAG gestiona el lado de la generación de texto, plataformas como esta son esenciales para gestionar el preprocesamiento de datos y el entrenamiento de los modelos de visión que alimentan con datos visuales a los canales RAG multimodales.






