Bảng chú giải thuật ngữ

RAG đa phương thức

Khám phá RAG đa phương thức để xử lý văn bản, hình ảnh và video. Tìm hiểu cách thức hoạt động. Ultralytics YOLO26 nâng cao hiệu quả các quy trình truy xuất thông tin bằng AI, mang lại phản hồi chính xác hơn và phù hợp với ngữ cảnh.

Hệ thống Tạo Tăng Cường Truy xuất Đa phương thức (Multimodal Retrieval Augmented Generation - Multimodal RAG) là một khung trí tuệ nhân tạo (AI) tiên tiến, mở rộng các hệ thống RAG truyền thống để xử lý và suy luận trên nhiều loại dữ liệu khác nhau, chẳng hạn như văn bản, hình ảnh, video và âm thanh. Trong khi Hệ thống Tạo Tăng Cường Truy xuất (RAG) tiêu chuẩn cải thiện độ chính xác của Mô hình Ngôn ngữ Lớn (LLM) bằng cách truy xuất các tài liệu văn bản có liên quan, Multimodal RAG cho phép các mô hình "nhìn" và "nghe" bằng cách truy xuất ngữ cảnh từ cơ sở tri thức đa phương tiện. Cách tiếp cận này dựa trên bằng chứng hình ảnh hoặc âm thanh cụ thể để tạo ra kết quả, giảm đáng kể hiện tượng ảo giác trong LLM và cho phép thực hiện các tác vụ phức tạp như trả lời câu hỏi trực quan trên các tập dữ liệu riêng tư. Bằng cách tận dụng học tập đa phương thức , các hệ thống này có thể tổng hợp thông tin từ truy vấn của người dùng (ví dụ: văn bản) và các tài sản được truy xuất (ví dụ: sơ đồ hoặc khung hình giám sát) để tạo ra các phản hồi toàn diện, có nhận thức về ngữ cảnh.

Cách thức hoạt động của RAG đa phương thức

Kiến trúc của một hệ thống RAG đa phương thức thường phản ánh quy trình "Truy xuất rồi tạo" tiêu chuẩn nhưng được điều chỉnh cho phù hợp với dữ liệu phi văn bản. Quá trình này phụ thuộc rất nhiều vào cơ sở dữ liệu vector và không gian ngữ nghĩa được chia sẻ.

Lập chỉ mục: Dữ liệu từ nhiều nguồn khác nhau—PDF, video, bản trình chiếu—được xử lý. Các mô hình trích xuất đặc trưng chuyển đổi các phương thức khác nhau này thành các vectơ số đa chiều được gọi là embedding . Ví dụ, một mô hình như CLIP của OpenAI sẽ căn chỉnh các embedding hình ảnh và văn bản sao cho hình ảnh một con chó và từ "chó" có vị trí gần nhau về mặt toán học.
Truy xuất: Khi người dùng đặt câu hỏi (ví dụ: "Hãy chỉ cho tôi lỗi trên bo mạch này"), hệ thống sẽ thực hiện tìm kiếm ngữ nghĩa trong cơ sở dữ liệu hình ảnh để tìm ra những hình ảnh hoặc video clip phù hợp nhất với ý định của truy vấn.
Tạo câu trả lời: Ngữ cảnh hình ảnh thu được sẽ được đưa vào Mô hình Ngôn ngữ-Hình ảnh (VLM) . VLM xử lý cả lời nhắc bằng văn bản của người dùng và các đặc điểm hình ảnh thu được để tạo ra câu trả lời cuối cùng, về cơ bản là "trò chuyện" với dữ liệu.

Các Ứng dụng Thực tế

Công nghệ RAG đa phương thức đang chuyển đổi các ngành công nghiệp bằng cách cho phép các tác nhân AI tương tác với thế giới vật lý thông qua dữ liệu hình ảnh.

Bảo trì và Sản xuất Công nghiệp: Trong lĩnh vực Trí tuệ Nhân tạo ứng dụng trong sản xuất , kỹ thuật viên có thể truy vấn hệ thống bằng hình ảnh của một bộ phận máy bị hỏng. Hệ thống RAG đa phương thức sẽ truy xuất các nhật ký bảo trì lịch sử tương tự, sơ đồ kỹ thuật và video hướng dẫn để hướng dẫn quá trình sửa chữa. Điều này giúp giảm thời gian ngừng hoạt động và phổ biến kiến thức chuyên môn.
Khám phá trong Bán lẻ và Thương mại điện tử: Các ứng dụng sử dụng AI trong bán lẻ cho phép khách hàng tải lên hình ảnh một bộ trang phục họ thích. Hệ thống sẽ tìm kiếm các mặt hàng tương tự về mặt hình ảnh từ kho hàng hiện có và đưa ra lời khuyên về cách phối đồ hoặc so sánh sản phẩm, tạo ra trải nghiệm mua sắm được cá nhân hóa cao.

Phân biệt các thuật ngữ liên quan

Để hiểu rõ hơn về lĩnh vực chuyên biệt của RAG đa phương thức, cần phân biệt nó với các khái niệm liên quan:

RAG đa phương thức so với Mô hình đa phương thức : Một mô hình đa phương thức (như GPT-4o hoặc Gemini) tạo ra phản hồi. RAG đa phương thức là kiến trúc cung cấp cho mô hình đó dữ liệu bên ngoài, dữ liệu riêng tư (hình ảnh, tài liệu) mà nó chưa được huấn luyện. Mô hình là động cơ; RAG là đường dẫn nhiên liệu.
RAG đa phương thức so với tinh chỉnh : Tinh chỉnh cập nhật vĩnh viễn trọng số mô hình để học một nhiệm vụ hoặc kiểu mới. RAG cung cấp kiến thức tạm thời tại thời điểm suy luận. RAG được ưu tiên cho dữ liệu động (ví dụ: hàng tồn kho hàng ngày) nơi việc huấn luyện lại thường xuyên không khả thi.

Thực hiện với Ultralytics

Các nhà phát triển có thể xây dựng thành phần truy xuất của quy trình RAG đa phương thức bằng cách sử dụng Ultralytics YOLO . Bằng cách phát hiện và phân loại các đối tượng trong hình ảnh, YOLO Nền tảng Ultralytics cung cấp siêu dữ liệu có cấu trúc, có thể được lập chỉ mục để truy xuất dựa trên văn bản hoặc được sử dụng để cắt các vùng hình ảnh liên quan cho mô hình VLM. Nền tảng này đơn giản hóa việc huấn luyện các mô hình thị giác chuyên biệt để nhận dạng các đối tượng tùy chỉnh quan trọng đối với lĩnh vực cụ thể của bạn.

Ví dụ sau đây minh họa việc sử dụng YOLO26 để trích xuất ngữ cảnh hình ảnh (các đối tượng được phát hiện) từ một bức ảnh, sau đó có thể được chuyển đến LLM như một phần của quy trình RAG.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Đọc thêm và Tài nguyên

Tài liệu hướng dẫn LangChain : Một hướng dẫn toàn diện về xây dựng các quy trình truy xuất dữ liệu, bao gồm hỗ trợ đa phương thức.
Hướng dẫn đa phương thức LlamaIndex : Tài liệu chi tiết về việc lập chỉ mục và truy xuất các kiểu dữ liệu phức tạp cho LLM.
Google Cloud Vertex AI Search : Khả năng tìm kiếm vector cấp doanh nghiệp để xây dựng các ứng dụng RAG có khả năng mở rộng.
Giải pháp Ultralytics : Khám phá cách thị giác máy tính tích hợp với các hệ thống trí tuệ nhân tạo rộng hơn trong nhiều ngành công nghiệp khác nhau.

RAG đa phương thức

Xe lửa Ultralytics YOLO các mô hình để hợp lý hóa quy trình làm việc trên khắp các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Cách thức hoạt động của RAG đa phương thức

Các Ứng dụng Thực tế

Phân biệt các thuật ngữ liên quan

Thực hiện với Ultralytics

Đọc thêm và Tài nguyên

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tham gia Ultralytics cộng đồng