Khám phá Agentic RAG để tăng cường trí tuệ nhân tạo với khả năng suy luận tự động. Tìm hiểu thêm Ultralytics YOLO26 và Ultralytics Nền tảng hỗ trợ truy xuất thông minh và thị giác máy tính.
Hệ thống truy xuất tăng cường bằng tác nhân (Agentic Retrieval-Augmented Generation - Agentic RAG) là một kiến trúc trí tuệ nhân tạo (AI) tiên tiến giúp nâng cao các hệ thống truy xuất truyền thống bằng cách tích hợp các tác nhân AI tự động. Trong khi các quy trình RAG tiêu chuẩn hoạt động theo trình tự tuyến tính "truy xuất-và-tạo", Agentic RAG cho phép Mô hình Ngôn ngữ Lớn (Large Language Model - LLM) hoạt động như một người điều phối thông minh. Tác nhân này có thể tự phân tích yêu cầu của người dùng, xác định xem có cần thông tin bên ngoài hay không, xây dựng nhiều truy vấn tìm kiếm, đánh giá dữ liệu đã truy xuất và liên tục tinh chỉnh nghiên cứu cho đến khi biên soạn được câu trả lời toàn diện và chính xác. Bằng cách tận dụng khả năng gọi hàm và sử dụng công cụ , các hệ thống này định tuyến động các truy vấn trên nhiều cơ sở dữ liệu, API và công cụ phân tích khác nhau, giảm đáng kể hiện tượng "ảo ảnh" trong LLM khi xử lý các vấn đề phức tạp, nhiều bước.
Điểm đột phá cốt lõi của Agentic RAG nằm ở khả năng lặp lại và suy luận. Các khung AI tác nhân hàng đầu cấu trúc quá trình này thành các quy trình làm việc năng động và tự động:
Để triển khai các quy trình tạo sinh mạnh mẽ, điều quan trọng là phải phân biệt Agentic RAG với các khái niệm nền tảng của nó:
Agentic RAG đang chuyển đổi các ngành công nghiệp bằng cách tự động hóa các tác vụ nghiên cứu chuyên sâu và xử lý sự cố phức tạp, mô phỏng quá trình suy luận phân tích của con người.
Các mô hình thị giác đóng vai trò là công cụ cảm biến mạnh mẽ cho các hệ thống RAG tác nhân tương tác với thế giới vật lý. Ví dụ, một tác nhân có thể sử dụng Ultralytics YOLO26 để tự động truy xuất ngữ cảnh hình ảnh từ luồng hình ảnh hoặc video nhằm trả lời các truy vấn của người dùng. Các nhà phát triển có thể quản lý việc chú thích dữ liệu và huấn luyện các công cụ thị giác tùy chỉnh này bằng cách sử dụng Nền tảng Ultralytics .
Sau đây Python Ví dụ này minh họa cách một tác nhân AI có thể lập trình để gọi YOLO26 nhằm trích xuất các quan sát có cấu trúc từ một hình ảnh, thu thập ngữ cảnh thực tế cho bước suy luận tiếp theo của nó.
from ultralytics import YOLO
# Initialize YOLO26 for the agent's visual retrieval tool
model = YOLO("yolo26n.pt")
# The agent invokes the model on an image to gather visual facts
results = model("https://ultralytics.com/images/bus.jpg")
# The agent parses the detected objects to formulate its next query or action
visual_context = [model.names[int(c)] for c in results[0].boxes.cls]
print(f"Agent Observation: I currently see {', '.join(visual_context)}.")
Bằng cách kết nối các mô hình thị giác có khả năng cao với các công cụ suy luận, Agentic RAG thu hẹp khoảng cách giữa việc truy xuất kiến thức tĩnh và trí thông minh không gian động, thực tế. Để hiểu sâu hơn về bối cảnh đang phát triển của các hệ thống tự động, Báo cáo Chỉ số AI của Stanford cung cấp khả năng theo dõi toàn diện các năng lực của tác nhân.