Gặp gỡ YOLO26: AI tầm nhìn thế hệ tiếp theo.
Ultralytics
Quay lại Bảng thuật ngữ Ultralytics

Multimodal RAG

Khám phá Multimodal RAG để xử lý văn bản, hình ảnh và video. Tìm hiểu cách Ultralytics YOLO26 tăng cường các pipeline truy xuất AI để có các phản hồi chính xác, nhạy bén với ngữ cảnh hơn.

Multimodal Retrieval Augmented Generation (Multimodal RAG) là một khung trí tuệ nhân tạo (AI) tiên tiến, mở rộng các hệ thống RAG truyền thống để xử lý và suy luận trên nhiều loại dữ liệu đa dạng như văn bản, hình ảnh, video và âm thanh. Trong khi Retrieval Augmented Generation (RAG) tiêu chuẩn cải thiện độ chính xác của Mô hình Ngôn ngữ Lớn (LLM) bằng cách truy xuất các tài liệu văn bản liên quan, Multimodal RAG cho phép các mô hình "nhìn" và "nghe" bằng cách truy xuất ngữ cảnh từ cơ sở tri thức đa phương tiện. Phương pháp này giúp nền tảng hóa khả năng tạo nội dung của mô hình bằng bằng chứng hình ảnh hoặc âm thanh cụ thể, giúp giảm thiểu đáng kể hiện tượng ảo giác trong LLM và kích hoạt các tác vụ phức tạp như trả lời câu hỏi dựa trên hình ảnh đối với các tập dữ liệu riêng tư. Bằng cách tận dụng học đa phương thức, các hệ thống này có thể tổng hợp thông tin từ truy vấn của người dùng (ví dụ: văn bản) và các tài sản được truy xuất (ví dụ: sơ đồ hoặc khung hình giám sát) để đưa ra phản hồi toàn diện và nhận biết ngữ cảnh.

Link to this sectionCách thức hoạt động của Multimodal RAG#

Kiến trúc của một hệ thống Multimodal RAG thường phản ánh đường ống "Truy xuất-rồi-Tạo" (Retrieve-then-Generate) tiêu chuẩn nhưng thích ứng cho dữ liệu phi văn bản. Quy trình này dựa nhiều vào vector databases và không gian ngữ nghĩa chia sẻ.

  1. Lập chỉ mục (Indexing): Dữ liệu từ nhiều nguồn khác nhau—PDF, video, slide—đều được xử lý. Các mô hình trích xuất đặc trưng chuyển đổi các phương thức này thành các vector số học nhiều chiều được gọi là embeddings. Ví dụ, một mô hình như CLIP của OpenAI căn chỉnh các embedding hình ảnh và văn bản sao cho bức ảnh con chó và từ "dog" nằm gần nhau về mặt toán học.

  2. Truy xuất (Retrieval): Khi người dùng đặt câu hỏi (ví dụ: "Hãy cho tôi xem lỗi trên bảng mạch này"), hệ thống sẽ thực hiện tìm kiếm ngữ nghĩa trên toàn bộ cơ sở dữ liệu vector để tìm các hình ảnh hoặc đoạn video liên quan nhất phù hợp với ý định của truy vấn.

  3. Tạo (Generation): Ngữ cảnh hình ảnh được truy xuất sẽ được đưa vào một Vision-Language Model (VLM). VLM xử lý cả lời nhắc văn bản của người dùng và các đặc trưng hình ảnh đã truy xuất để tạo ra câu trả lời cuối cùng, thực hiện việc "trò chuyện" với dữ liệu một cách hiệu quả.

Link to this sectionCác ứng dụng trong thực tế#

Multimodal RAG đang chuyển đổi các ngành công nghiệp bằng cách cho phép AI agents tương tác với thế giới vật lý thông qua dữ liệu hình ảnh.

  • Bảo trì Công nghiệp và Sản xuất: Trong AI trong sản xuất, các kỹ thuật viên có thể truy vấn hệ thống bằng ảnh chụp một bộ phận máy bị hỏng. Hệ thống Multimodal RAG truy xuất các nhật ký bảo trì lịch sử, sơ đồ kỹ thuật và hướng dẫn video tương tự để hỗ trợ quy trình sửa chữa. Điều này làm giảm thời gian ngừng hoạt động và phổ cập kiến thức chuyên gia.
  • Khám phá Bán lẻ và Thương mại điện tử: Các ứng dụng sử dụng AI trong bán lẻ cho phép khách hàng tải lên hình ảnh một trang phục họ thích. Hệ thống truy xuất các mặt hàng tương tự về mặt thị giác từ kho hàng hiện tại và tạo ra lời khuyên phối đồ hoặc so sánh sản phẩm, tạo nên trải nghiệm mua sắm được cá nhân hóa cao.

Link to this sectionPhân biệt các thuật ngữ liên quan#

Để hiểu rõ phân khúc cụ thể của Multimodal RAG, việc phân biệt nó với các khái niệm liên quan là rất hữu ích:

  • Multimodal RAG so với Multi-Modal Model: Một mô hình đa phương thức (như GPT-4o hoặc Gemini) tạo ra phản hồi. Multimodal RAG là kiến trúc cung cấp cho mô hình đó dữ liệu bên ngoài, riêng tư (hình ảnh, tài liệu) mà nó chưa từng được huấn luyện. Mô hình là động cơ; RAG là đường dẫn nhiên liệu.
  • Multimodal RAG so với Fine-Tuning: Fine-tuning cập nhật vĩnh viễn model weights để học một tác vụ hoặc phong cách mới. RAG cung cấp kiến thức tạm thời tại thời điểm suy luận. RAG được ưu tiên cho dữ liệu động (ví dụ: tồn kho hàng ngày) nơi việc đào tạo lại thường xuyên là không khả thi.

Link to this sectionTriển khai với Ultralytics#

Các lập trình viên có thể xây dựng thành phần truy xuất của một pipeline Multimodal RAG bằng cách sử dụng Ultralytics YOLO. Bằng cách phát hiện và phân loại các đối tượng trong hình ảnh, YOLO cung cấp siêu dữ liệu có cấu trúc có thể được lập chỉ mục để truy xuất dựa trên văn bản hoặc dùng để cắt các vùng hình ảnh liên quan cho VLM. Ultralytics Platform đơn giản hóa việc huấn luyện các mô hình thị giác chuyên biệt này để nhận diện các đối tượng tùy chỉnh quan trọng cho lĩnh vực cụ thể của bạn.

Ví dụ sau đây trình bày cách sử dụng YOLO26 để trích xuất ngữ cảnh hình ảnh (các đối tượng được phát hiện) từ một hình ảnh, sau đó có thể chuyển cho LLM như một phần của quy trình làm việc RAG.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Link to this sectionĐọc thêm và Tài nguyên#

  • Tài liệu LangChain: Hướng dẫn toàn diện về cách xây dựng các đường ống truy xuất, bao gồm hỗ trợ đa phương thức.
  • Hướng dẫn Multimodal của LlamaIndex: Tài liệu chi tiết về lập chỉ mục và truy xuất các loại dữ liệu phức tạp cho LLM.
  • Google Cloud Vertex AI Search: Các khả năng tìm kiếm vector cấp doanh nghiệp để xây dựng các ứng dụng RAG có khả năng mở rộng.
  • Ultralytics Solutions: Khám phá cách thị giác máy tính tích hợp với các hệ thống AI rộng lớn hơn trên nhiều ngành công nghiệp khác nhau.

Explore solutions

Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong Logistics

Tối ưu hóa logistics với các model Ultralytics YOLO. Vision AI hỗ trợ kiểm tra hàng hóa, phân loại, theo dõi phương tiện và giám sát an toàn kho bãi trong thời gian thực.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong ngành Bán lẻ

Tái định hình bán lẻ với các model Ultralytics YOLO. Vision AI thúc đẩy theo dõi hàng tồn kho, giám sát kệ hàng, quản lý hàng đợi và thông tin chi tiết thông minh hơn về khách hàng.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong chăm sóc sức khỏe

Xây dựng các giải pháp y tế với các model Ultralytics YOLO. AI thị giác trong y tế hỗ trợ chẩn đoán hình ảnh y khoa nhanh hơn, chẩn đoán thông minh hơn và theo dõi bệnh nhân.
Tìm hiểu thêm
Real-time AI that works with your team

AI trong sản xuất

Tối ưu hóa sản xuất với các model Ultralytics YOLO. Vision AI thúc đẩy kiểm soát chất lượng, phát hiện lỗi, tuân thủ PPE và tự động hóa dây chuyền lắp ráp.
Tìm hiểu thêm
Real-time AI that works with your operation

AI trong Ô tô

Áp dụng thị giác máy tính trong ô tô với các model Ultralytics YOLO. AI thị giác nâng cao an toàn đường bộ, hỗ trợ người lái và tự động hóa phương tiện cho những con đường thông minh hơn.
Tìm hiểu thêm
Real-time AI tailored to your operation

AI trong Nông nghiệp

Mang AI thị giác vào nông nghiệp thông minh với các model Ultralytics YOLO. Tăng cường giám sát mùa màng, theo dõi vật nuôi và canh tác chính xác để đạt năng suất cao hơn, thông minh hơn.
Tìm hiểu thêm

Hãy cùng nhau xây dựng tương lai của AI!

Bắt đầu hành trình của bạn với tương lai của machine learning