探索多模态RAG技术处理文本、图像和视频。Ultralytics 如何增强AI检索管道,实现更精准、更具上下文感知能力的响应。
多模态检索增强生成(Multimodal RAG)是一种先进的人工智能(AI)框架,它扩展了传统RAG系统,能够处理并推理多种数据类型,如文本、图像、视频和音频。标准检索增强生成(RAG)通过检索相关文本文档来提高大型语言模型(LLM)的准确性,而多模态RAG通过检索相关文本文档、图像、视频和音频等多模态数据,使模型能够"看"和"听",从而增强其处理能力。 通过检索相关文本文档来提升大型语言模型(LLM)的准确性,而多模态RAG则通过从混合媒体知识库中检索上下文,使模型能够"看见"和"听见"。这种方法使模型的生成基于具体的视觉或听觉证据,显著减少了LLM中的幻觉现象,并实现了在私有数据集上进行复杂任务(如视觉问答)的能力。通过利用多模态学习,这些系统能够综合用户查询(如文本)和检索到的资源(如图像)中的信息,从而在处理复杂任务时提供更准确的答案。 任务(如基于私有数据集的视觉问答)。通过多模态学习,这些系统能 综合用户查询(如文本)与检索资源(如图表或监控画面)的信息, 生成全面且具备上下文感知能力的响应。
多模态RAG系统的架构通常遵循标准的"检索-生成"流程, 但针对非文本数据进行了适配。该过程高度依赖 向量数据库和共享语义空间。
多模态RAG正通过使人工智能代理能够通过视觉数据与物理世界交互,从而改变各行各业。
要理解多模态RAG的具体定位,区分其与相关概念很有帮助:
开发者可使用 Ultralytics YOLO。通过检测和分类图像中的对象, YOLO 结构化元数据,既可用于文本检索的索引,也可用于裁剪相关图像区域 以支持视觉语言模型(VLM)。Ultralytics 简化了这些 专用视觉模型的训练流程,使其能识别特定领域中至关重要的定制对象。
以下示例演示了如何使用YOLO26从图像中提取视觉上下文(检测到的物体),这些信息随后可作为RAG工作流的一部分传递给大型语言模型。
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person