Glosario

RAG multimodal

Explora RAG multimodal para procesar texto, imágenes y vídeo. Descubre cómo Ultralytics mejora los procesos de recuperación de IA para obtener respuestas más precisas y sensibles al contexto.

La generación aumentada por recuperación multimodal (Multimodal RAG) es un marco avanzado de inteligencia artificial (IA) que amplía los sistemas RAG tradicionales para procesar y razonar con diversos tipos de datos, como texto, imágenes, vídeo y audio. Mientras que la generación aumentada por recuperación (RAG)estándar mejora la precisión de un gran modelo de lenguaje (LLM) mediante la recuperación de documentos textuales relevantes, la RAG multimodal permite a los modelos «ver» y «oír» mediante la recuperación de contexto a partir de una base de conocimientos multimedia. Este enfoque basa la generación del modelo en pruebas visuales o auditivas concretas, lo que reduce significativamente las alucinaciones en los LLM y permite realizar tareas complejas tareas complejas como la respuesta a preguntas visuales sobre conjuntos de datos privados. Al aprovechar el aprendizaje multimodal, estos sistemas pueden sintetizar la información de la consulta de un usuario (por ejemplo, texto) y los activos recuperados (por ejemplo, un diagrama o un fotograma de vigilancia) para producir respuestas completas y sensibles al contexto.

Cómo funciona el RAG multimodal

La arquitectura de un sistema RAG multimodal suele reflejar el proceso estándar de «recuperar y luego generar», pero adaptándolo a datos no textuales. Este proceso se basa en gran medida en bases de datos vectoriales y espacios semánticos compartidos.

Indexación: Se procesan datos de diversas fuentes: archivos PDF, vídeos, presentaciones de diapositivas. Los modelos de extracción de características convierten estas diferentes modalidades en vectores numéricos de alta dimensión conocidos como incrustaciones. Por ejemplo, un modelo como CLIP de OpenAI alinea las incrustaciones de imágenes y texto para que una imagen de un perro y la palabra «perro» estén matemáticamente cerca.
Recuperación: Cuando un usuario plantea una pregunta (por ejemplo, «Muéstrame el defecto en esta placa de circuito »), el sistema realiza una búsqueda semántica en la base de datos vectorial para encontrar las imágenes o videoclips más relevantes que coincidan con la intención de la consulta.
Generación: El contexto visual recuperado se introduce en un modelo de visión-lenguaje (VLM). El VLM procesa tanto la indicación de texto del usuario como las características de la imagen recuperada para generar una respuesta final, «chateando» de manera efectiva con los datos.

Aplicaciones en el mundo real

El RAG multimodal está transformando las industrias al permitir que los agentes de IA interactúen con el mundo físico a través de datos visuales.

Mantenimiento industrial y fabricación: En la fabricación con IA, los técnicos pueden consultar un sistema con una foto de una pieza de máquina averiada. El sistema RAG multimodal recupera registros de mantenimiento históricos similares , esquemas técnicos y tutoriales en vídeo para guiar el proceso de reparación. Esto reduce el tiempo de inactividad y democratiza los conocimientos especializados.
Descubrimiento en el comercio minorista y el comercio electrónico: Las aplicaciones que utilizan la IA en el comercio minorista permiten a los clientes subir una imagen de un conjunto que les gusta. El sistema recupera artículos visualmente similares del inventario actual y genera consejos de estilo o comparaciones de productos, creando una experiencia de compra altamente personalizada.

Diferenciar términos relacionados

Para comprender el nicho específico del RAG multimodal, resulta útil distinguirlo de conceptos relacionados:

RAG multimodal frente a modelo multimodal: Un modelo multimodal (como GPT-4o o Gemini) crea la respuesta. RAG multimodal es la arquitectura que alimenta a ese modelo con datos externos y privados (imágenes, documentos) con los que no ha sido entrenado. El modelo es el motor; RAG es el conducto de combustible.
RAG multimodal frente a ajuste fino: El ajuste fino actualiza permanentemente los pesos del modelo para aprender una nueva tarea o estilo. RAG proporciona conocimientos temporales en el momento de la inferencia. RAG es preferible para datos dinámicos (por ejemplo, inventario diario) en los que no es práctico realizar un reentrenamiento frecuente.

Aplicación con Ultralytics

Los desarrolladores pueden crear el componente de recuperación de un canal RAG multimodal utilizando Ultralytics YOLO. Al detectar y clasificar objetos dentro de las imágenes, YOLO metadatos estructurados que pueden indexarse para la recuperación basada en texto o utilizarse para recortar regiones de imagen relevantes para un VLM. La Ultralytics simplifica el entrenamiento de estos modelos de visión especializados para reconocer objetos personalizados cruciales para su dominio específico.

El siguiente ejemplo muestra el uso de YOLO26 para extraer el contexto visual (objetos detectados) de una imagen, que luego podría pasarse a un LLM como parte de un flujo de trabajo RAG.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Otras lecturas y recursos

Documentación de LangChain: Una guía completa para crear canales de recuperación, incluyendo soporte multimodal.
Guía multimodal de LlamaIndex: Documentación detallada sobre la indexación y recuperación de tipos de datos complejos para LLM.
Google Vertex AI Search: Funciones de búsqueda vectorial de nivel empresarial para crear aplicaciones RAG escalables.
Ultralytics : Descubra cómo la visión artificial se integra en sistemas de IA más amplios en diversos sectores.

RAG multimodal

Entrene los modelosYOLO Ultralytics para agilizar los flujos de trabajo en todos los sectores

Solución de licencias empresariales flexible para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Cómo funciona el RAG multimodal

Aplicaciones en el mundo real

Diferenciar términos relacionados

Aplicación con Ultralytics

Otras lecturas y recursos

Leer más en esta categoría

12 casos de uso de imágenes aéreas impulsados por la visión artificial

¿Qué es la estimación de profundidad monocular? Una visión general

Una mirada al uso deYOLO Ultralytics para la detección de amenazas mediante IA

Únase a la comunidad Ultralytics