Agentic RAG
Khám phá Agentic RAG để nâng cao AI bằng khả năng suy luận tự chủ. Tìm hiểu cách Ultralytics YOLO26 và Nền tảng Ultralytics hỗ trợ truy xuất và thị giác thông minh.
Agentic Retrieval-Augmented Generation (Agentic RAG) là một kiến trúc trí tuệ nhân tạo (AI) tiên tiến giúp nâng cao các hệ thống truy xuất truyền thống bằng cách tích hợp các tác nhân AI tự chủ. Trong khi các pipeline RAG tiêu chuẩn vận hành theo trình tự "truy xuất-và-tạo" tuyến tính, Agentic RAG cho phép một Mô hình Ngôn ngữ Lớn (LLM) đóng vai trò là một trình điều phối thông minh. Tác nhân này có thể độc lập phân tích lời nhắc của người dùng, xác định xem có cần thông tin bên ngoài hay không, xây dựng nhiều truy vấn tìm kiếm, đánh giá dữ liệu được truy xuất và lặp lại quá trình nghiên cứu cho đến khi tổng hợp được một câu trả lời toàn diện và chính xác. Bằng cách tận dụng khả năng gọi hàm và sử dụng công cụ, các hệ thống này định tuyến truy vấn một cách linh hoạt qua nhiều cơ sở dữ liệu, API và công cụ phân tích khác nhau, giúp giảm đáng kể hiện tượng ảo tưởng trong LLM khi xử lý các vấn đề phức tạp, đa bước.
Link to this sectionCách thức hoạt động của hệ thống Agentic RAG#
Sự đổi mới cốt lõi của Agentic RAG nằm ở khả năng tạo vòng lặp và lập luận. Các framework AI tác nhân hàng đầu cấu trúc quy trình này thành các quy trình công việc tự chủ, linh hoạt:
- Lập kế hoạch và định tuyến truy vấn: Tác nhân phân rã các câu hỏi phức tạp thành các tác vụ phụ nhỏ hơn, dễ quản lý hơn và định tuyến từng tác vụ đến công cụ hoặc cơ sở dữ liệu vector phù hợp nhất.
- Truy xuất lặp: Không giống như truy xuất tĩnh, tác nhân sẽ xem xét các tài liệu đã được tìm thấy. Nếu ngữ cảnh không đủ, nó sẽ điều chỉnh lại chiến lược tìm kiếm và thực hiện truy vấn lại.
- Tích hợp công cụ: Tác nhân có thể viết và thực thi code, thực hiện tính toán toán học hoặc kích hoạt các mô hình học máy (ML) để tổng hợp dữ liệu mới một cách tức thời.
Link to this sectionSo sánh Agentic RAG và RAG tiêu chuẩn#
Để triển khai các pipeline tạo sinh mạnh mẽ, việc phân biệt Agentic RAG với các khái niệm nền tảng của nó là rất quan trọng:
- Retrieval-Augmented Generation (RAG) tiêu chuẩn: Vận hành trong một lần truyền duy nhất. Nó tìm nạp các tài liệu dựa trên sự tương đồng về ngữ nghĩa và tạo ra phản hồi. Phương pháp này gặp khó khăn với các logic phức tạp đòi hỏi phải tổng hợp các nguồn dữ liệu khác nhau qua nhiều bước.
- Agentic RAG: Giới thiệu khả năng ra quyết định và vòng lặp. Tác nhân đánh giá chất lượng của kết quả truy xuất và có thể kích hoạt các tìm kiếm tiếp theo hoặc sử dụng các công cụ khác nhau trước khi hoàn tất quá trình tạo kết quả.
- Multimodal RAG: Tập trung vào việc truy xuất các loại dữ liệu đa dạng (hình ảnh, văn bản, video). Agentic RAG có thể kiểm soát một pipeline Multimodal RAG, quyết định khi nào cần tìm kiếm trong cơ sở dữ liệu hình ảnh thay vì tài liệu văn bản.
Link to this sectionCác ứng dụng trong thực tế#
Agentic RAG đang chuyển đổi các ngành công nghiệp bằng cách tự động hóa các tác vụ nghiên cứu chuyên sâu và xử lý sự cố phức tạp, mô phỏng theo khả năng suy luận phân tích của con người.
- Tổng hợp kiến thức doanh nghiệp: Trong môi trường doanh nghiệp, một tác nhân có thể nhận được yêu cầu "tóm tắt kết quả hoạt động quý 3 của chúng tôi và so sánh nó với thu nhập gần nhất của đối thủ cạnh tranh hàng đầu". Tác nhân sẽ tự chủ truy vấn cơ sở dữ liệu tài chính nội bộ, thực hiện tìm kiếm web theo thời gian thực về các báo cáo của đối thủ cạnh tranh, phân tích các con số bằng công cụ tính toán và soạn thảo một bản tóm tắt toàn diện.
- Kiểm tra chất lượng tự chủ: Trong sản xuất, một tác nhân có thể được giao nhiệm vụ xác định nguyên nhân gốc rễ của lỗi lắp ráp. Nó có thể kích hoạt một mô hình thị giác máy tính (CV) để kiểm tra luồng video camera trực tiếp, truy vấn nhật ký bảo trì lịch sử và tổng hợp báo cáo chẩn đoán dựa trên bằng chứng hình ảnh và văn bản.
Link to this sectionTích hợp AI thị giác vào các quy trình công việc của tác nhân#
Các mô hình thị giác đóng vai trò là công cụ cảm nhận mạnh mẽ cho các hệ thống Agentic RAG khi tương tác với thế giới vật lý. Ví dụ, một tác nhân có thể sử dụng Ultralytics YOLO26 để truy xuất ngữ cảnh hình ảnh một cách linh hoạt từ luồng hình ảnh hoặc video nhằm trả lời truy vấn của người dùng. Các lập trình viên có thể quản lý việc chú thích dữ liệu và huấn luyện các công cụ thị giác tùy chỉnh này bằng cách sử dụng Ultralytics Platform.
Ví dụ về Python sau đây minh họa cách một tác nhân AI có thể gọi chương trình YOLO26 để trích xuất các quan sát có cấu trúc từ một hình ảnh, thu thập ngữ cảnh thực tế cho bước suy luận tiếp theo của nó.
from ultralytics import YOLO
# Initialize YOLO26 for the agent's visual retrieval tool
model = YOLO("yolo26n.pt")
# The agent invokes the model on an image to gather visual facts
results = model("https://ultralytics.com/images/bus.jpg")
# The agent parses the detected objects to formulate its next query or action
visual_context = [model.names[int(c)] for c in results[0].boxes.cls]
print(f"Agent Observation: I currently see {', '.join(visual_context)}.")Bằng cách kết nối các mô hình thị giác có khả năng cao với các công cụ suy luận, Agentic RAG thu hẹp khoảng cách giữa truy xuất kiến thức tĩnh và trí tuệ không gian năng động trong thế giới thực. Để có cái nhìn sâu sắc hơn về bối cảnh đang phát triển của các hệ thống tự chủ, Stanford AI Index Report cung cấp khả năng theo dõi toàn diện các năng lực của tác nhân.






