探索多模态RAG以处理文本、图像和视频。了解Ultralytics YOLO26如何增强AI检索管道,从而实现更准确、上下文感知的响应。
多模态检索增强生成 (多模态RAG) 是一种先进的 人工智能 (AI) 框架,它扩展了传统的RAG系统,以处理和推理文本、图像、视频和音频等多种数据类型。尽管标准的 检索增强生成 (RAG) 通过检索相关文本文档来提高 大型语言模型 (LLM) 的准确性,但多模态RAG使模型能够通过从混合媒体知识库中检索上下文来“看”和“听”。这种方法将模型的生成建立在具体的视觉或听觉证据之上,显著减少 LLM中的幻觉,并支持在私有数据集上进行视觉问答等复杂任务。通过利用 多模态学习,这些系统可以综合来自用户查询(例如文本)和检索到的资产(例如图表或监控帧)的信息,以生成全面、上下文感知的响应。
多模态RAG系统的架构通常模仿标准的“检索-然后-生成”管道,但针对非文本数据进行了调整。这一过程严重依赖于 向量数据库 和共享语义空间。
多模态RAG正在通过使 AI智能体 能够通过视觉数据与物理世界进行交互,从而改变各行各业。
为了理解多模态 RAG 的特定定位,将其与相关概念区分开来会很有帮助:
开发者可以使用 Ultralytics YOLO 构建多模态RAG管道的检索组件。通过 detect 和 classify 图像中的对象,YOLO提供结构化元数据,可用于基于文本的检索,或用于裁剪相关图像区域以供VLM使用。Ultralytics平台 简化了这些专用视觉模型的训练,以识别对您的特定领域至关重要的自定义对象。
以下示例演示了如何使用 YOLO26 从图像中提取视觉上下文(已 detect 的对象),然后可以将其作为RAG工作流的一部分传递给LLM。
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

开启您的机器学习未来之旅