Khám phá cách Retrieval Augmented Generation (RAG) tăng cường các mô hình AI bằng cách tích hợp dữ liệu bên ngoài theo thời gian thực, đáng tin cậy để có các phản hồi chính xác và cập nhật.
Retrieval Augmented Generation (RAG) là một khuôn khổ tiên tiến được thiết kế để tối ưu hóa kết quả đầu ra của các Mô hình Ngôn ngữ Lớn (LLM) bằng cách tham chiếu đến một cơ sở tri thức đáng tin cậy bên ngoài dữ liệu huấn luyện ban đầu của chúng. Trong các hệ thống AI tạo sinh tiêu chuẩn, mô hình chỉ dựa vào thông tin tĩnh mà nó học được trong quá trình huấn luyện, điều này có thể dẫn đến các câu trả lời lỗi thời hoặc lỗi thực tế được gọi là ảo giác . RAG thu hẹp khoảng cách này bằng cách truy xuất thông tin liên quan, cập nhật từ các nguồn bên ngoài đáng tin cậy và cung cấp cho mô hình dưới dạng ngữ cảnh trước khi tạo ra phản hồi. Quá trình này thực sự làm nền tảng cho AI, đảm bảo độ chính xác và tính phù hợp cao mà không cần phải đào tạo lại mô hình tốn kém.
Quy trình làm việc RAG tích hợp hai thành phần chính: hệ thống truy xuất và mô hình tạo. Sự kết hợp này chuyển đổi cách thức thực hiện các tác vụ Xử lý Ngôn ngữ Tự nhiên (NLP) .
RAG rất cần thiết trong các ngành công nghiệp mà dữ liệu thay đổi thường xuyên hoặc yêu cầu độ chính xác cao.
Mặc dù theo truyền thống dựa trên văn bản, các khái niệm RAG đang được mở rộng sang thị giác máy tính (CV) . Trong mô hình đa phương thức , một hệ thống có thể truy xuất hình ảnh tương tự hoặc siêu dữ liệu trực quan để hỗ trợ phát hiện hoặc phân loại đối tượng . Ví dụ, việc xác định một mẫu vật sinh học quý hiếm có thể được cải thiện bằng cách truy xuất hình ảnh tham chiếu từ cơ sở dữ liệu khoa học để bổ sung cho phân tích trực quan được thực hiện bởi các mô hình như Ultralytics YOLO11 .
Điều quan trọng là phải phân biệt RAG với tinh chỉnh vì chúng giải quyết các vấn đề khác nhau:
Trong này Python Ví dụ, chúng tôi mô phỏng quy trình làm việc RAG cơ bản bằng cách sử dụng mô hình phát hiện đối tượng để "truy xuất" các thông tin về hình ảnh. Những thông tin này sau đó bổ sung cho lời nhắc văn bản, dựa trên dữ liệu hình ảnh đã được xác minh để mô tả.
from ultralytics import YOLO
# Load the YOLO11 model acting as our 'retrieval' mechanism for visual facts
model = YOLO("yolo11n.pt")
# Run inference to retrieve content information from the image
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected classes to augment the prompt
detected_objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
context_string = ", ".join(set(detected_objects))
# Construct the augmented prompt (RAG concept)
prompt = f"Based on the verified presence of {context_string} in the scene, describe the traffic situation."
print(f"Augmented Prompt: {prompt}")