探索检索增强生成(RAG)如何利用实时数据优化大型语言模型(LLMs)。学习如何使用 Ultralytics YOLO26 构建多模态管道以实现视觉 RAG。
检索增强生成(RAG)是人工智能领域的一种先进技术,通过引用其训练数据之外的权威知识库,优化大型语言模型(LLM)的输出。传统的生成模型仅依赖于其初始训练期间学到的静态信息,这可能导致过时答案或被称为幻觉的自信不准确信息。RAG通过从外部来源(如公司数据库、最新新闻或技术手册)检索相关、最新信息来弥补这一差距,并在生成响应之前将其作为上下文提供给模型。这一过程确保了AI的输出不仅在语言上连贯,而且事实准确并基于特定数据。
RAG系统的架构通常涉及两个主要阶段:检索和生成。这种工作流程允许开发者维护一个基础模型,而无需昂贵的频繁再训练。
尽管RAG传统上是基于文本的,但多模态学习的兴起引入了“视觉RAG”。在这种场景下,计算机视觉模型充当检索机制。它们分析图像或视频流以提取结构化文本数据——例如对象名称、数量或活动——然后将其输入到LLM中,以回答有关视觉场景的问题。
例如,开发人员可以使用YOLO26来detect图像中的物体,并将该物体列表传递给文本模型以生成描述性报告。
from ultralytics import YOLO
# Load the YOLO26 model for state-of-the-art detection
model = YOLO("yolo26n.pt")
# Perform inference to 'retrieve' visual facts from an image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract class names to build a text context for an LLM
detected_classes = [model.names[int(c)] for c in results[0].boxes.cls]
context_string = f"The scene contains: {', '.join(detected_classes)}."
print(context_string)
# Output example: "The scene contains: bus, person, person, person."
RAG正在通过使AI代理能够安全地访问专有或实时数据来改变各行各业。
区分RAG与微调至关重要,因为它们解决的是不同的问题。

开启您的机器学习未来之旅