Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

Retrieval Augmented Generation (RAG)

Khám phá cách Retrieval Augmented Generation (RAG) tăng cường các mô hình AI bằng cách tích hợp dữ liệu bên ngoài theo thời gian thực, đáng tin cậy để có các phản hồi chính xác và cập nhật.

Retrieval Augmented Generation (RAG) là một khuôn khổ tiên tiến được thiết kế để tối ưu hóa kết quả đầu ra của các Mô hình Ngôn ngữ Lớn (LLM) bằng cách tham chiếu đến một cơ sở tri thức đáng tin cậy bên ngoài dữ liệu huấn luyện ban đầu của chúng. Trong các hệ thống AI tạo sinh tiêu chuẩn, mô hình chỉ dựa vào thông tin tĩnh mà nó học được trong quá trình huấn luyện, điều này có thể dẫn đến các câu trả lời lỗi thời hoặc lỗi thực tế được gọi là ảo giác . RAG thu hẹp khoảng cách này bằng cách truy xuất thông tin liên quan, cập nhật từ các nguồn bên ngoài đáng tin cậy và cung cấp cho mô hình dưới dạng ngữ cảnh trước khi tạo ra phản hồi. Quá trình này thực sự làm nền tảng cho AI, đảm bảo độ chính xác và tính phù hợp cao mà không cần phải đào tạo lại mô hình tốn kém.

Cách thức hoạt động của Retrieval Augmented Generation

Quy trình làm việc RAG tích hợp hai thành phần chính: hệ thống truy xuất và mô hình tạo. Sự kết hợp này chuyển đổi cách thức thực hiện các tác vụ Xử lý Ngôn ngữ Tự nhiên (NLP) .

  1. Truy xuất: Khi người dùng gửi truy vấn, trước tiên hệ thống sẽ tìm kiếm trong cơ sở dữ liệu kiến thức chuyên biệt, thường được lưu trữ trong cơ sở dữ liệu vector . Cơ sở dữ liệu này chứa các nhúng — biểu diễn số của văn bản hoặc dữ liệu — cho phép tìm kiếm ngữ nghĩa hiệu quả. Trình truy xuất sẽ xác định các tài liệu hoặc đoạn dữ liệu tương đồng nhất về mặt ngữ nghĩa với yêu cầu của người dùng.
  2. Tăng cường: Thông tin thu thập được sau đó được kết hợp với truy vấn ban đầu của người dùng bằng các kỹ thuật kỹ thuật nhắc nhở . Lời nhắc "tăng cường" này cung cấp cho mô hình bối cảnh thực tế cần thiết mà ban đầu nó còn thiếu.
  3. Tạo: Cuối cùng, lời nhắc được làm giàu sẽ được chuyển đến LLM. Mô hình sử dụng ngữ cảnh được cung cấp để tạo ra một câu trả lời mạch lạc và có căn cứ thực tế. Các nền tảng hàng đầu như LangChain thường được sử dụng để sắp xếp các bước này một cách liền mạch.

Các Ứng dụng Thực tế

RAG rất cần thiết trong các ngành công nghiệp mà dữ liệu thay đổi thường xuyên hoặc yêu cầu độ chính xác cao.

  • Quản lý Kiến thức Doanh nghiệp: Các tổ chức sử dụng RAG để hỗ trợ chatbot nội bộ, hỗ trợ nhân viên. Ví dụ: trợ lý nhân sự có thể truy xuất các tài liệu chính sách mới nhất từ máy chủ của công ty để trả lời các câu hỏi về phúc lợi. Điều này đảm bảo AI tuân thủ các giao thức cụ thể của công ty thay vì kiến thức chung chung trên internet.
  • Hỗ trợ Quyết định Lâm sàng: Trong lĩnh vực y tế, AI trong chăm sóc sức khỏe được hưởng lợi đáng kể từ RAG. Một hệ thống có thể truy xuất các bài báo nghiên cứu y khoa gần đây nhất hoặc hồ sơ bệnh án cụ thể của bệnh nhân để hỗ trợ bác sĩ chẩn đoán, đảm bảo mô hình dự đoán dựa trên khoa học mới nhất thay vì ngày hết hạn của mô hình.

RAG trong Thị Giác Máy Tính

Mặc dù theo truyền thống dựa trên văn bản, các khái niệm RAG đang được mở rộng sang thị giác máy tính (CV) . Trong mô hình đa phương thức , một hệ thống có thể truy xuất hình ảnh tương tự hoặc siêu dữ liệu trực quan để hỗ trợ phát hiện hoặc phân loại đối tượng . Ví dụ, việc xác định một mẫu vật sinh học quý hiếm có thể được cải thiện bằng cách truy xuất hình ảnh tham chiếu từ cơ sở dữ liệu khoa học để bổ sung cho phân tích trực quan được thực hiện bởi các mô hình như Ultralytics YOLO11 .

RAG so với Tinh chỉnh

Điều quan trọng là phải phân biệt RAG với tinh chỉnh vì chúng giải quyết các vấn đề khác nhau:

  • RAG kết nối mô hình với các dữ kiện động, bên ngoài. Phương pháp này phù hợp nhất cho các ứng dụng yêu cầu thông tin cập nhật và khả năng kiểm chứng. Nó không làm thay đổi các tham số bên trong của mô hình.
  • Tinh chỉnh bao gồm việc đào tạo thêm mô hình trên một tập dữ liệu cụ thể để điều chỉnh trọng số mô hình . Phương pháp này lý tưởng để dạy mô hình một phong cách, giọng điệu hoặc hành vi tác vụ chuyên biệt, nhưng lại kém hiệu quả hơn trong việc duy trì cơ sở kiến thức về các sự kiện thay đổi nhanh chóng. Các nhà phát triển thường sử dụng học chuyển giao để kết hợp cả hai phương pháp nhằm đạt hiệu suất tối ưu.

Ví dụ: Bổ sung lời nhắc bằng dữ liệu phát hiện

Trong này Python Ví dụ, chúng tôi mô phỏng quy trình làm việc RAG cơ bản bằng cách sử dụng mô hình phát hiện đối tượng để "truy xuất" các thông tin về hình ảnh. Những thông tin này sau đó bổ sung cho lời nhắc văn bản, dựa trên dữ liệu hình ảnh đã được xác minh để mô tả.

from ultralytics import YOLO

# Load the YOLO11 model acting as our 'retrieval' mechanism for visual facts
model = YOLO("yolo11n.pt")

# Run inference to retrieve content information from the image
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected classes to augment the prompt
detected_objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
context_string = ", ".join(set(detected_objects))

# Construct the augmented prompt (RAG concept)
prompt = f"Based on the verified presence of {context_string} in the scene, describe the traffic situation."
print(f"Augmented Prompt: {prompt}")

Tham gia Ultralytics cộng đồng

Tham gia vào tương lai của AI. Kết nối, hợp tác và phát triển cùng với những nhà đổi mới toàn cầu

Tham gia ngay