Yolo Tầm nhìn Thâm Quyến
Thâm Quyến
Tham gia ngay
Bảng chú giải thuật ngữ

RAG đại lý

Khám phá Agentic RAG để tăng cường trí tuệ nhân tạo với khả năng suy luận tự động. Tìm hiểu thêm Ultralytics YOLO26 và Ultralytics Nền tảng hỗ trợ truy xuất thông minh và thị giác máy tính.

Hệ thống truy xuất tăng cường bằng tác nhân (Agentic Retrieval-Augmented Generation - Agentic RAG) là một kiến ​​trúc trí tuệ nhân tạo (AI) tiên tiến giúp nâng cao các hệ thống truy xuất truyền thống bằng cách tích hợp các tác nhân AI tự động. Trong khi các quy trình RAG tiêu chuẩn hoạt động theo trình tự tuyến tính "truy xuất-và-tạo", Agentic RAG cho phép Mô hình Ngôn ngữ Lớn (Large Language Model - LLM) hoạt động như một người điều phối thông minh. Tác nhân này có thể tự phân tích yêu cầu của người dùng, xác định xem có cần thông tin bên ngoài hay không, xây dựng nhiều truy vấn tìm kiếm, đánh giá dữ liệu đã truy xuất và liên tục tinh chỉnh nghiên cứu cho đến khi biên soạn được câu trả lời toàn diện và chính xác. Bằng cách tận dụng khả năng gọi hàm và sử dụng công cụ , các hệ thống này định tuyến động các truy vấn trên nhiều cơ sở dữ liệu, API và công cụ phân tích khác nhau, giảm đáng kể hiện tượng "ảo ảnh" trong LLM khi xử lý các vấn đề phức tạp, nhiều bước.

Cách thức hoạt động của hệ thống RAG tác nhân

Điểm đột phá cốt lõi của Agentic RAG nằm ở khả năng lặp lại và suy luận. Các khung AI tác nhân hàng đầu cấu trúc quá trình này thành các quy trình làm việc năng động và tự động:

  • Lập kế hoạch và định tuyến truy vấn : Hệ thống phân tích các câu hỏi phức tạp thành các nhiệm vụ phụ nhỏ hơn, dễ quản lý hơn và định tuyến từng nhiệm vụ đến công cụ hoặc cơ sở dữ liệu vectơ phù hợp nhất.
  • Truy xuất lặp lại : Khác với truy xuất tĩnh, tác nhân sẽ xem xét lại các tài liệu đã được truy xuất. Nếu ngữ cảnh không đủ, nó sẽ điều chỉnh lại chiến lược tìm kiếm và truy vấn lại.
  • Tích hợp công cụ : Tác nhân có thể viết và thực thi mã, thực hiện các phép toán hoặc kích hoạt các mô hình học máy (ML) để tổng hợp dữ liệu mới ngay lập tức.

RAG tác nhân so với RAG tiêu chuẩn

Để triển khai các quy trình tạo sinh mạnh mẽ, điều quan trọng là phải phân biệt Agentic RAG với các khái niệm nền tảng của nó:

  • Phương pháp tìm kiếm tiêu chuẩn kết hợp tạo nội dung nâng cao (RAG) : Hoạt động trong một lần xử lý duy nhất. Nó tìm nạp tài liệu dựa trên sự tương đồng về ngữ nghĩa và tạo ra phản hồi. Phương pháp này gặp khó khăn với logic phức tạp đòi hỏi phải tổng hợp các nguồn dữ liệu khác nhau qua nhiều bước.
  • RAG tác nhân : Giới thiệu quá trình ra quyết định và các vòng lặp. Tác nhân đánh giá chất lượng của kết quả tìm kiếm và có thể kích hoạt các tìm kiếm tiếp theo hoặc các công cụ khác nhau trước khi hoàn tất quá trình tạo kết quả.
  • RAG đa phương thức : Tập trung vào việc truy xuất các loại dữ liệu đa dạng (hình ảnh, văn bản, video). RAG tác nhân có thể điều khiển quy trình RAG đa phương thức, quyết định khi nào nên tìm kiếm trong cơ sở dữ liệu hình ảnh so với tài liệu văn bản.

Các Ứng dụng Thực tế

Agentic RAG đang chuyển đổi các ngành công nghiệp bằng cách tự động hóa các tác vụ nghiên cứu chuyên sâu và xử lý sự cố phức tạp, mô phỏng quá trình suy luận phân tích của con người.

  • Tổng hợp kiến ​​thức doanh nghiệp : Trong môi trường doanh nghiệp, một nhân viên có thể nhận được yêu cầu "tóm tắt kết quả hoạt động quý 3 của chúng ta và so sánh với kết quả kinh doanh mới nhất của đối thủ cạnh tranh hàng đầu". Nhân viên này tự động truy vấn các cơ sở dữ liệu tài chính nội bộ, thực hiện tìm kiếm trực tuyến các báo cáo của đối thủ cạnh tranh, phân tích các con số bằng công cụ tính toán và soạn thảo một bản tóm tắt toàn diện.
  • Kiểm tra chất lượng tự động : Trong sản xuất, một tác nhân có thể được giao nhiệm vụ xác định nguyên nhân gốc rễ của lỗi lắp ráp. Nó có thể kích hoạt mô hình thị giác máy tính (CV) để kiểm tra nguồn cấp dữ liệu camera trực tiếp, truy vấn nhật ký bảo trì trước đó và tổng hợp báo cáo chẩn đoán dựa trên bằng chứng hình ảnh và văn bản.

Tích hợp Trí tuệ nhân tạo thị giác vào quy trình làm việc của tác nhân

Các mô hình thị giác đóng vai trò là công cụ cảm biến mạnh mẽ cho các hệ thống RAG tác nhân tương tác với thế giới vật lý. Ví dụ, một tác nhân có thể sử dụng Ultralytics YOLO26 để tự động truy xuất ngữ cảnh hình ảnh từ luồng hình ảnh hoặc video nhằm trả lời các truy vấn của người dùng. Các nhà phát triển có thể quản lý việc chú thích dữ liệu và huấn luyện các công cụ thị giác tùy chỉnh này bằng cách sử dụng Nền tảng Ultralytics .

Sau đây Python Ví dụ này minh họa cách một tác nhân AI có thể lập trình để gọi YOLO26 nhằm trích xuất các quan sát có cấu trúc từ một hình ảnh, thu thập ngữ cảnh thực tế cho bước suy luận tiếp theo của nó.

from ultralytics import YOLO

# Initialize YOLO26 for the agent's visual retrieval tool
model = YOLO("yolo26n.pt")

# The agent invokes the model on an image to gather visual facts
results = model("https://ultralytics.com/images/bus.jpg")

# The agent parses the detected objects to formulate its next query or action
visual_context = [model.names[int(c)] for c in results[0].boxes.cls]
print(f"Agent Observation: I currently see {', '.join(visual_context)}.")

Bằng cách kết nối các mô hình thị giác có khả năng cao với các công cụ suy luận, Agentic RAG thu hẹp khoảng cách giữa việc truy xuất kiến ​​thức tĩnh và trí thông minh không gian động, thực tế. Để hiểu sâu hơn về bối cảnh đang phát triển của các hệ thống tự động, Báo cáo Chỉ số AI của Stanford cung cấp khả năng theo dõi toàn diện các năng lực của tác nhân.

Tăng sức mạnh với Ultralytics YOLO

Nhận AI thị giác tiên tiến cho các dự án của bạn. Tìm giấy phép phù hợp với mục tiêu của bạn ngay hôm nay.

Tìm hiểu các tùy chọn cấp phép