Multimodal RAG
Explora RAG multimodal para procesar texto, imágenes y vídeo. Aprende cómo Ultralytics YOLO26 mejora las tuberías de recuperación de IA para obtener respuestas más precisas y conscientes del contexto.
La generación aumentada por recuperación multimodal (Multimodal RAG) es un marco de trabajo de inteligencia artificial (IA) avanzado que amplía los sistemas RAG tradicionales para procesar y razonar sobre diversos tipos de datos, como texto, imágenes, vídeo y audio. Aunque la generación aumentada por recuperación (RAG) estándar mejora la precisión de un modelo de lenguaje extenso (LLM) mediante la recuperación de documentos textuales relevantes, el RAG multimodal permite a los modelos «ver» y «oír» al recuperar contexto de una base de conocimientos multimedia. Este enfoque fundamenta la generación del modelo en evidencia visual o auditiva concreta, lo que reduce significativamente las alucinaciones en LLM y permite realizar tareas complejas como responder a preguntas visuales sobre conjuntos de datos privados. Al aprovechar el aprendizaje multimodal, estos sistemas pueden sintetizar información de la consulta de un usuario (por ejemplo, texto) y activos recuperados (por ejemplo, un diagrama o un fotograma de vigilancia) para generar respuestas completas y conscientes del contexto.
Link to this sectionCómo funciona el RAG multimodal#
La arquitectura de un sistema RAG multimodal suele reflejar la canalización estándar de «recuperar y luego generar», pero adaptada para datos no textuales. Este proceso depende en gran medida de las bases de datos vectoriales y de los espacios semánticos compartidos.
-
Indexación: Se procesan datos procedentes de diversas fuentes (PDF, vídeos, presentaciones). Los modelos de extracción de características convierten estas diferentes modalidades en vectores numéricos de alta dimensión conocidos como embeddings. Por ejemplo, un modelo como CLIP de OpenAI alinea los embeddings de imágenes y texto de modo que la imagen de un perro y la palabra «perro» estén matemáticamente cerca.
-
Recuperación: Cuando un usuario plantea una pregunta (por ejemplo, «Muéstrame el defecto en esta placa de circuito»), el sistema realiza una búsqueda semántica en la base de datos vectorial para encontrar las imágenes o clips de vídeo más relevantes que coincidan con la intención de la consulta.
-
Generación: El contexto visual recuperado se introduce en un modelo de lenguaje visual (VLM). El VLM procesa tanto el mensaje de texto del usuario como las características de la imagen recuperada para generar una respuesta final, «chateando» eficazmente con los datos.
Link to this sectionAplicaciones en el mundo real#
El RAG multimodal está transformando sectores al permitir que los agentes de IA interactúen con el mundo físico a través de datos visuales.
- Mantenimiento industrial y fabricación: En la IA en la fabricación, los técnicos pueden consultar a un sistema con una foto de una pieza de máquina rota. El sistema RAG multimodal recupera registros de mantenimiento históricos, esquemas técnicos y tutoriales en vídeo similares para guiar el proceso de reparación. Esto reduce el tiempo de inactividad y democratiza el conocimiento experto.
- Descubrimiento en venta al por menor y comercio electrónico: Las aplicaciones que utilizan IA en el comercio minorista permiten a los clientes cargar una imagen de un conjunto que les gusta. El sistema recupera artículos visualmente similares del inventario actual y genera consejos de estilo o comparaciones de productos, creando una experiencia de compra altamente personalizada.
Link to this sectionDiferenciación de términos relacionados#
Para entender el nicho específico del RAG multimodal, resulta útil distinguirlo de conceptos relacionados:
- RAG multimodal frente a modelo multimodal: Un modelo multimodal (como GPT-4o o Gemini) crea la respuesta. El RAG multimodal es la arquitectura que alimenta a ese modelo con datos externos y privados (imágenes, documentos) con los que no fue entrenado. El modelo es el motor; el RAG es el conducto de combustible.
- RAG multimodal frente a ajuste fino: El ajuste fino actualiza permanentemente los pesos del modelo para aprender una nueva tarea o estilo. El RAG proporciona conocimientos temporales en el momento de la inferencia. El RAG es preferible para datos dinámicos (por ejemplo, el inventario diario) donde el reentrenamiento frecuente no es práctico.
Link to this sectionImplementación con Ultralytics#
Los desarrolladores pueden crear el componente de recuperación de una canalización RAG multimodal utilizando Ultralytics YOLO. Al detectar y clasificar objetos dentro de imágenes, YOLO proporciona metadatos estructurados que pueden indexarse para la recuperación basada en texto o utilizarse para recortar regiones de imagen relevantes para un VLM. La plataforma de Ultralytics simplifica el entrenamiento de estos modelos de visión especializados para reconocer objetos personalizados cruciales para tu dominio específico.
El siguiente ejemplo demuestra cómo usar YOLO26 para extraer contexto visual (objetos detectados) de una imagen, que luego podría pasarse a un LLM como parte de un flujo de trabajo RAG.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, personLink to this sectionLecturas adicionales y recursos#
- Documentación de LangChain: Una guía completa para crear canalizaciones de recuperación, incluido el soporte multimodal.
- Guía multimodal de LlamaIndex: Documentación detallada sobre la indexación y recuperación de tipos de datos complejos para LLM.
- Google Cloud Vertex AI Search: Capacidades de búsqueda vectorial de nivel empresarial para crear aplicaciones RAG escalables.
- Soluciones de Ultralytics: Explora cómo la visión artificial se integra con sistemas de IA más amplios en diversos sectores.






