深圳Yolo 视觉
深圳
立即加入
词汇表

多模态 RAG

探索多模态RAG以处理文本、图像和视频。了解Ultralytics YOLO26如何增强AI检索管道,从而实现更准确、上下文感知的响应。

多模态检索增强生成 (多模态RAG) 是一种先进的 人工智能 (AI) 框架,它扩展了传统的RAG系统,以处理和推理文本、图像、视频和音频等多种数据类型。尽管标准的 检索增强生成 (RAG) 通过检索相关文本文档来提高 大型语言模型 (LLM) 的准确性,但多模态RAG使模型能够通过从混合媒体知识库中检索上下文来“看”和“听”。这种方法将模型的生成建立在具体的视觉或听觉证据之上,显著减少 LLM中的幻觉,并支持在私有数据集上进行视觉问答等复杂任务。通过利用 多模态学习,这些系统可以综合来自用户查询(例如文本)和检索到的资产(例如图表或监控帧)的信息,以生成全面、上下文感知的响应。

多模态 RAG 的工作原理

多模态RAG系统的架构通常模仿标准的“检索-然后-生成”管道,但针对非文本数据进行了调整。这一过程严重依赖于 向量数据库 和共享语义空间。

  1. 索引:处理来自各种来源(PDF、视频、幻灯片)的数据。特征提取模型将这些不同的模态转换为高维数值向量,称为嵌入。例如,像OpenAI 的 CLIP 这样的模型会对齐图像和文本嵌入,使得狗的图片和“狗”这个词在数学上是接近的。
  2. 检索:当用户提出问题(例如,“显示此电路板中的缺陷”)时,系统会在向量数据库中执行 语义搜索,以找到与查询意图最相关的图像或视频片段。
  3. 生成:检索到的视觉上下文被输入到 视觉语言模型 (VLM) 中。VLM 处理用户的文本提示和检索到的图像特征以生成最终答案,有效地与数据进行“对话”。

实际应用

多模态RAG正在通过使 AI智能体 能够通过视觉数据与物理世界进行交互,从而改变各行各业。

  • 工业维护与制造:制造业中的人工智能领域,技术人员可以通过损坏机器部件的照片查询系统。多模态RAG系统会检索类似的历史维护日志、技术示意图和视频教程,以指导维修过程。这减少了停机时间并普及了专家知识。
  • 零售和电子商务发现:使用 零售AI的应用允许顾客上传他们喜欢的服装图片。系统会从当前库存中检索视觉上相似的商品,并生成搭配建议或产品比较,从而创造高度个性化的购物体验。

区分相关术语

为了理解多模态 RAG 的特定定位,将其与相关概念区分开来会很有帮助:

  • 多模态RAG与 多模态模型 多模态模型(如GPT-4o或Gemini)负责生成响应。多模态RAG是一种架构,它向模型提供未经训练的外部私有数据(图像、文档)。模型是引擎;RAG是燃料管线。
  • 多模态RAG与微调 微调会永久更新模型权重以学习新任务或风格。RAG在推理时提供临时知识。对于动态数据 (例如每日库存),频繁的再训练不切实际,因此RAG是首选。

利用Ultralytics实施

开发者可以使用 Ultralytics YOLO 构建多模态RAG管道的检索组件。通过 detect 和 classify 图像中的对象,YOLO提供结构化元数据,可用于基于文本的检索,或用于裁剪相关图像区域以供VLM使用。Ultralytics平台 简化了这些专用视觉模型的训练,以识别对您的特定领域至关重要的自定义对象。

以下示例演示了如何使用 YOLO26 从图像中提取视觉上下文(已 detect 的对象),然后可以将其作为RAG工作流的一部分传递给LLM。

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

更多阅读和资源

让我们一起共建AI的未来!

开启您的机器学习未来之旅