Khám phá RAG đa phương thức để xử lý văn bản, hình ảnh và video. Tìm hiểu cách thức hoạt động. Ultralytics YOLO26 nâng cao hiệu quả các quy trình truy xuất thông tin bằng AI, mang lại phản hồi chính xác hơn và phù hợp với ngữ cảnh.
Hệ thống Tạo Tăng Cường Truy xuất Đa phương thức (Multimodal Retrieval Augmented Generation - Multimodal RAG) là một khung trí tuệ nhân tạo (AI) tiên tiến, mở rộng các hệ thống RAG truyền thống để xử lý và suy luận trên nhiều loại dữ liệu khác nhau, chẳng hạn như văn bản, hình ảnh, video và âm thanh. Trong khi Hệ thống Tạo Tăng Cường Truy xuất (RAG) tiêu chuẩn cải thiện độ chính xác của Mô hình Ngôn ngữ Lớn (LLM) bằng cách truy xuất các tài liệu văn bản có liên quan, Multimodal RAG cho phép các mô hình "nhìn" và "nghe" bằng cách truy xuất ngữ cảnh từ cơ sở tri thức đa phương tiện. Cách tiếp cận này dựa trên bằng chứng hình ảnh hoặc âm thanh cụ thể để tạo ra kết quả, giảm đáng kể hiện tượng ảo giác trong LLM và cho phép thực hiện các tác vụ phức tạp như trả lời câu hỏi trực quan trên các tập dữ liệu riêng tư. Bằng cách tận dụng học tập đa phương thức , các hệ thống này có thể tổng hợp thông tin từ truy vấn của người dùng (ví dụ: văn bản) và các tài sản được truy xuất (ví dụ: sơ đồ hoặc khung hình giám sát) để tạo ra các phản hồi toàn diện, có nhận thức về ngữ cảnh.
Kiến trúc của một hệ thống RAG đa phương thức thường phản ánh quy trình "Truy xuất rồi tạo" tiêu chuẩn nhưng được điều chỉnh cho phù hợp với dữ liệu phi văn bản. Quá trình này phụ thuộc rất nhiều vào cơ sở dữ liệu vector và không gian ngữ nghĩa được chia sẻ.
Công nghệ RAG đa phương thức đang chuyển đổi các ngành công nghiệp bằng cách cho phép các tác nhân AI tương tác với thế giới vật lý thông qua dữ liệu hình ảnh.
Để hiểu rõ hơn về lĩnh vực chuyên biệt của RAG đa phương thức, cần phân biệt nó với các khái niệm liên quan:
Các nhà phát triển có thể xây dựng thành phần truy xuất của quy trình RAG đa phương thức bằng cách sử dụng Ultralytics YOLO . Bằng cách phát hiện và phân loại các đối tượng trong hình ảnh, YOLO Nền tảng Ultralytics cung cấp siêu dữ liệu có cấu trúc, có thể được lập chỉ mục để truy xuất dựa trên văn bản hoặc được sử dụng để cắt các vùng hình ảnh liên quan cho mô hình VLM. Nền tảng này đơn giản hóa việc huấn luyện các mô hình thị giác chuyên biệt để nhận dạng các đối tượng tùy chỉnh quan trọng đối với lĩnh vực cụ thể của bạn.
Ví dụ sau đây minh họa việc sử dụng YOLO26 để trích xuất ngữ cảnh hình ảnh (các đối tượng được phát hiện) từ một bức ảnh, sau đó có thể được chuyển đến LLM như một phần của quy trình RAG.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person