Agentic RAG
Explora la RAG agentica para mejorar la IA con razonamiento autónomo. Aprende cómo YOLO26 de Ultralytics y la plataforma de Ultralytics potencian la recuperación inteligente y la visión.
La Generación Aumentada por Recuperación Agéntica (RAG agéntico) es una arquitectura avanzada de inteligencia artificial (IA) que mejora los sistemas de recuperación tradicionales mediante la integración de agentes de IA autónomos. Mientras que las canalizaciones RAG estándar funcionan en una secuencia lineal de "recuperar y generar", el RAG agéntico permite que un Modelo de Lenguaje Extenso (LLM) actúe como un orquestador inteligente. Este agente puede analizar de forma independiente el mensaje del usuario, determinar si se necesita información externa, formular múltiples consultas de búsqueda, evaluar los datos recuperados y perfeccionar su investigación de forma iterativa hasta compilar una respuesta completa y precisa. Al aprovechar las capacidades de llamada a funciones y uso de herramientas, estos sistemas dirigen dinámicamente las consultas a través de diversas bases de datos, API y herramientas analíticas, lo que reduce significativamente las alucinaciones en los LLM al tratar problemas complejos de varios pasos.
Link to this sectionCómo funcionan los sistemas RAG agénticos#
La innovación principal del RAG agéntico reside en su capacidad para realizar bucles y razonar. Los marcos de trabajo de IA agéntica líderes estructuran este proceso en flujos de trabajo dinámicos y autónomos:
- Planificación y enrutamiento de consultas: El agente descompone preguntas complejas en subtareas más pequeñas y manejables, y dirige cada una a la herramienta o base de datos vectorial más adecuada.
- Recuperación iterativa: A diferencia de la recuperación estática, el agente revisa los documentos obtenidos. Si el contexto es insuficiente, reformula su estrategia de búsqueda y vuelve a consultar.
- Integración de herramientas: El agente puede escribir y ejecutar código, realizar cálculos matemáticos o activar modelos de aprendizaje automático (ML) para sintetizar nuevos datos sobre la marcha.
Link to this sectionRAG agéntico frente a RAG estándar#
Para implementar canalizaciones generativas sólidas, es fundamental diferenciar el RAG agéntico de sus conceptos fundamentales:
- Generación Aumentada por Recuperación (RAG) estándar: Funciona en una sola pasada. Busca documentos basados en la similitud semántica y genera una respuesta. Tiene dificultades con la lógica compleja que requiere sintetizar fuentes de datos dispares a lo largo de varios pasos.
- RAG agéntico: Introduce la toma de decisiones y los bucles. El agente evalúa la calidad de la recuperación y puede activar búsquedas posteriores o diferentes herramientas antes de finalizar su generación.
- RAG multimodal: Se centra en la recuperación de diversos tipos de datos (imágenes, texto, vídeo). El RAG agéntico puede controlar una canalización RAG multimodal, decidiendo cuándo buscar en una base de datos visual frente a un documento de texto.
Link to this sectionAplicaciones en el mundo real#
El RAG agéntico está transformando las industrias mediante la automatización de investigaciones profundas y tareas de resolución de problemas complejos que imitan el razonamiento analítico humano.
- Síntesis de conocimiento empresarial: En entornos corporativos, un agente podría recibir la orden de "resumir nuestro rendimiento del tercer trimestre y compararlo con los últimos beneficios de nuestro principal competidor". El agente consulta de forma autónoma las bases de datos financieras internas, realiza búsquedas web en tiempo real sobre los informes de los competidores, analiza las cifras con una herramienta de cálculo y redacta un resumen exhaustivo.
- Inspección de calidad autónoma: En la fabricación, se puede asignar a un agente la tarea de identificar la causa raíz de un fallo de montaje. Puede activar un modelo de visión artificial (CV) para inspeccionar una transmisión de cámara en directo, consultar registros de mantenimiento históricos y sintetizar un informe de diagnóstico basado en pruebas visuales y textuales.
Link to this sectionIntegración de IA de visión en flujos de trabajo agénticos#
Los modelos de visión sirven como poderosas herramientas sensoriales para que los sistemas RAG agénticos interactúen con el mundo físico. Por ejemplo, un agente puede usar Ultralytics YOLO26 para recuperar dinámicamente contexto visual de una imagen o transmisión de vídeo para responder a las consultas de los usuarios. Los desarrolladores pueden gestionar la anotación de datos y el entrenamiento de estas herramientas de visión personalizadas utilizando la Plataforma Ultralytics.
El siguiente ejemplo de Python demuestra cómo un agente de IA podría invocar programáticamente YOLO26 para extraer observaciones estructuradas de una imagen, reuniendo contexto fáctico para su siguiente paso de razonamiento.
from ultralytics import YOLO
# Initialize YOLO26 for the agent's visual retrieval tool
model = YOLO("yolo26n.pt")
# The agent invokes the model on an image to gather visual facts
results = model("https://ultralytics.com/images/bus.jpg")
# The agent parses the detected objects to formulate its next query or action
visual_context = [model.names[int(c)] for c in results[0].boxes.cls]
print(f"Agent Observation: I currently see {', '.join(visual_context)}.")Al conectar modelos de visión de alta capacidad con motores de razonamiento, el RAG agéntico salva la brecha entre la recuperación de conocimientos estáticos y la inteligencia espacial dinámica del mundo real. Para una visión más profunda del panorama cambiante de los sistemas autónomos, el Informe del Índice de IA de Stanford proporciona un seguimiento exhaustivo de las capacidades agénticas.






