Explora RAG multimodal para procesar texto, imágenes y vídeo. Descubre cómo Ultralytics mejora los procesos de recuperación de IA para obtener respuestas más precisas y sensibles al contexto.
La generación aumentada por recuperación multimodal (Multimodal RAG) es un marco avanzado de inteligencia artificial (IA) que amplía los sistemas RAG tradicionales para procesar y razonar con diversos tipos de datos, como texto, imágenes, vídeo y audio. Mientras que la generación aumentada por recuperación (RAG)estándar mejora la precisión de un gran modelo de lenguaje (LLM) mediante la recuperación de documentos textuales relevantes, la RAG multimodal permite a los modelos «ver» y «oír» mediante la recuperación de contexto a partir de una base de conocimientos multimedia. Este enfoque basa la generación del modelo en pruebas visuales o auditivas concretas, lo que reduce significativamente las alucinaciones en los LLM y permite realizar tareas complejas tareas complejas como la respuesta a preguntas visuales sobre conjuntos de datos privados. Al aprovechar el aprendizaje multimodal, estos sistemas pueden sintetizar la información de la consulta de un usuario (por ejemplo, texto) y los activos recuperados (por ejemplo, un diagrama o un fotograma de vigilancia) para producir respuestas completas y sensibles al contexto.
La arquitectura de un sistema RAG multimodal suele reflejar el proceso estándar de «recuperar y luego generar», pero adaptándolo a datos no textuales. Este proceso se basa en gran medida en bases de datos vectoriales y espacios semánticos compartidos.
El RAG multimodal está transformando las industrias al permitir que los agentes de IA interactúen con el mundo físico a través de datos visuales.
Para comprender el nicho específico del RAG multimodal, resulta útil distinguirlo de conceptos relacionados:
Los desarrolladores pueden crear el componente de recuperación de un canal RAG multimodal utilizando Ultralytics YOLO. Al detectar y clasificar objetos dentro de las imágenes, YOLO metadatos estructurados que pueden indexarse para la recuperación basada en texto o utilizarse para recortar regiones de imagen relevantes para un VLM. La Ultralytics simplifica el entrenamiento de estos modelos de visión especializados para reconocer objetos personalizados cruciales para su dominio específico.
El siguiente ejemplo muestra el uso de YOLO26 para extraer el contexto visual (objetos detectados) de una imagen, que luego podría pasarse a un LLM como parte de un flujo de trabajo RAG.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person
Comience su viaje con el futuro del aprendizaje automático