Nâng cao ứng dụng AI với RAG và tầm nhìn máy tính

Abirami Vina

4 phút đọc

Ngày 28 tháng 5 năm 2025

Tìm hiểu cách kết hợp thế hệ tăng cường truy xuất (RAG) với thị giác máy tính giúp các hệ thống AI diễn giải tài liệu, hình ảnh và nội dung phức tạp trong thế giới thực.

Sử dụng các công cụ AI như ChatGPT hoặc Gemini đang nhanh chóng trở thành cách phổ biến để tìm thông tin. Cho dù bạn đang soạn thảo tin nhắn, tóm tắt tài liệu hay trả lời câu hỏi, các công cụ này thường cung cấp giải pháp nhanh hơn và dễ dàng hơn. 

Nhưng nếu bạn đã sử dụng các mô hình ngôn ngữ lớn (LLM) một vài lần, bạn có thể nhận thấy những hạn chế của chúng. Khi được nhắc nhở bằng các truy vấn rất cụ thể hoặc nhạy cảm về thời gian, chúng có thể trả lời bằng các câu trả lời không chính xác, thường là một cách tự tin.

Điều này xảy ra vì các LLM độc lập chỉ dựa vào dữ liệu mà họ được đào tạo. Họ không có quyền truy cập vào các bản cập nhật mới nhất hoặc kiến thức chuyên môn ngoài tập dữ liệu đó. Do đó, câu trả lời của họ có thể lỗi thời hoặc không chính xác.

Để giúp giải quyết vấn đề này, các nhà nghiên cứu đã phát triển một phương pháp gọi là thế hệ tăng cường truy xuất (RAG) . RAG cải thiện các mô hình ngôn ngữ bằng cách cho phép chúng thu thập thông tin mới, có liên quan từ các nguồn đáng tin cậy khi trả lời các truy vấn.

Trong bài viết này, chúng ta sẽ khám phá cách RAG hoạt động và cách nó tăng cường các công cụ AI bằng cách truy xuất thông tin có liên quan, cập nhật. Chúng ta cũng sẽ xem cách nó hoạt động cùng với thị giác máy tính , một lĩnh vực trí tuệ nhân tạo tập trung vào việc diễn giải dữ liệu trực quan, để giúp các hệ thống hiểu không chỉ văn bản mà còn cả hình ảnh, bố cục và tài liệu phức tạp về mặt trực quan.

Hiểu về thế hệ tăng cường truy xuất (RAG)

Khi hỏi một chatbot AI một câu hỏi, chúng ta thường mong đợi nhiều hơn là một câu trả lời nghe có vẻ hay. Lý tưởng nhất là một câu trả lời tốt phải rõ ràng, chính xác và thực sự hữu ích. Để cung cấp điều đó, mô hình AI cần nhiều hơn là các kỹ năng ngôn ngữ; nó cũng cần quyền truy cập vào thông tin phù hợp, đặc biệt là đối với các chủ đề cụ thể hoặc nhạy cảm về thời gian.

RAG là một kỹ thuật giúp thu hẹp khoảng cách này. Nó kết hợp khả năng hiểu và tạo văn bản của mô hình ngôn ngữ với khả năng truy xuất thông tin có liên quan từ các nguồn bên ngoài. Thay vì chỉ dựa vào dữ liệu đào tạo, mô hình chủ động lấy nội dung hỗ trợ từ các cơ sở kiến thức đáng tin cậy trong khi hình thành phản hồi của nó.

__wf_reserved_thừa kế
Hình 1. Các trường hợp sử dụng RAG chính. Hình ảnh của tác giả.

Bạn có thể nghĩ về nó giống như việc hỏi ai đó một câu hỏi và yêu cầu họ tham khảo một nguồn tham khảo đáng tin cậy trước khi trả lời. Câu trả lời của họ vẫn là lời của chính họ, nhưng được thông báo bằng thông tin có liên quan và cập nhật nhất.

Cách tiếp cận này giúp LLM phản hồi bằng những câu trả lời đầy đủ hơn, chính xác hơn và phù hợp hơn với thắc mắc của người dùng, khiến chúng đáng tin cậy hơn nhiều trong các ứng dụng thực tế khi độ chính xác thực sự quan trọng.

Một cái nhìn về cách thức hoạt động của RAG

RAG cải thiện cách một mô hình ngôn ngữ lớn phản hồi bằng cách giới thiệu hai bước chính: truy xuất và tạo. Đầu tiên, nó truy xuất thông tin có liên quan từ cơ sở kiến thức bên ngoài. Sau đó, nó sử dụng thông tin đó để tạo ra phản hồi có nhận thức ngữ cảnh, được hình thành tốt.

Hãy cùng xem một ví dụ đơn giản để xem quy trình này hoạt động như thế nào. Hãy tưởng tượng bạn đang sử dụng trợ lý AI để quản lý tài chính cá nhân và muốn kiểm tra xem bạn có tuân thủ mục tiêu chi tiêu trong tháng hay không.

Quá trình bắt đầu khi bạn hỏi trợ lý một câu hỏi như "Tôi có tuân thủ ngân sách tháng này không?" Thay vì chỉ dựa vào những gì đã học được trong quá trình đào tạo, hệ thống sử dụng một trình thu thập để tìm kiếm qua các hồ sơ tài chính gần đây nhất của bạn (những thứ như sao kê ngân hàng hoặc tóm tắt giao dịch). Nó tập trung vào việc hiểu ý định đằng sau câu hỏi của bạn và thu thập thông tin có liên quan nhất.

Sau khi thông tin đó được lấy ra, mô hình ngôn ngữ sẽ tiếp quản. Nó xử lý cả câu hỏi của bạn và dữ liệu được lấy từ hồ sơ của bạn để tạo ra câu trả lời rõ ràng, hữu ích. Thay vì liệt kê các chi tiết thô, phản hồi sẽ tóm tắt chi tiêu của bạn và cung cấp cho bạn cái nhìn sâu sắc trực tiếp, có ý nghĩa - chẳng hạn như xác nhận xem bạn đã đạt được mục tiêu của mình hay chưa và chỉ ra các lĩnh vực chi tiêu chính.

Phương pháp này giúp LLM cung cấp những phản hồi không chỉ chính xác mà còn dựa trên thông tin thực tế và cập nhật của bạn, giúp trải nghiệm hữu ích hơn nhiều so với mô hình chỉ hoạt động với dữ liệu đào tạo tĩnh.

__wf_reserved_thừa kế
Hình 2. Hiểu cách thức hoạt động của RAG.

Nhu cầu về hệ thống RAG đa phương thức

Thông thường, thông tin không phải lúc nào cũng được chia sẻ dưới dạng văn bản thuần túy. Từ bản quét và sơ đồ y tế đến các slide thuyết trình và tài liệu được quét, hình ảnh thường mang các chi tiết quan trọng. Các LLM truyền thống, chủ yếu được xây dựng để đọc và hiểu văn bản, có thể gặp khó khăn với loại nội dung này.

Tuy nhiên, RAG có thể được sử dụng cùng với thị giác máy tính để thu hẹp khoảng cách đó. Khi cả hai được kết hợp lại với nhau, chúng tạo thành cái được gọi là hệ thống RAG đa phương thức - một thiết lập có thể xử lý cả văn bản và hình ảnh, giúp các chatbot AI cung cấp câu trả lời chính xác và đầy đủ hơn.

Cốt lõi của phương pháp này là các mô hình ngôn ngữ thị giác (VLM) , được thiết kế để xử lý và lý giải cả hai loại đầu vào. Trong thiết lập này, RAG lấy thông tin có liên quan nhất từ các nguồn dữ liệu lớn, trong khi VLM, được hỗ trợ bởi thị giác máy tính, diễn giải hình ảnh, bố cục và sơ đồ.

Điều này đặc biệt hữu ích đối với các tài liệu thực tế, như biểu mẫu được quét, báo cáo y khoa hoặc slide thuyết trình, trong đó các chi tiết quan trọng có thể được tìm thấy trong cả văn bản và hình ảnh. Ví dụ, khi phân tích một tài liệu có hình ảnh cùng với bảng và đoạn văn, một hệ thống đa phương thức có thể trích xuất các yếu tố hình ảnh, tạo bản tóm tắt về những gì chúng hiển thị và kết hợp với văn bản xung quanh để đưa ra phản hồi hoàn chỉnh và hữu ích hơn.

__wf_reserved_thừa kế
Hình 3. RAG đa phương thức sử dụng hình ảnh và văn bản để cung cấp câu trả lời tốt hơn.

Ứng dụng của RAG cho dữ liệu trực quan 

Bây giờ chúng ta đã thảo luận về RAG là gì và cách nó hoạt động với thị giác máy tính, hãy cùng xem xét một số ví dụ thực tế và các dự án nghiên cứu cho thấy cách tiếp cận này đang được sử dụng như thế nào.

Hiểu các tài liệu trực quan với VisRAG

Giả sử bạn đang cố gắng trích xuất thông tin chi tiết từ báo cáo tài chính hoặc tài liệu pháp lý được quét. Các loại tệp này thường không chỉ bao gồm văn bản mà còn bao gồm bảng, biểu đồ và bố cục giúp giải thích thông tin. Một mô hình ngôn ngữ đơn giản có thể bỏ qua hoặc hiểu sai các yếu tố trực quan này, dẫn đến phản hồi không đầy đủ hoặc không chính xác.

VisRAG được các nhà nghiên cứu tạo ra để giải quyết thách thức này. Đây là một đường ống RAG dựa trên VLM xử lý từng trang như một hình ảnh thay vì chỉ xử lý văn bản. Điều này cho phép hệ thống hiểu cả nội dung và cấu trúc trực quan của nó. Kết quả là, nó có thể tìm ra các phần có liên quan nhất và đưa ra câu trả lời rõ ràng hơn, chính xác hơn và dựa trên toàn bộ ngữ cảnh của tài liệu.

__wf_reserved_thừa kế
Hình 4. VisRAG có thể đọc tài liệu dưới dạng hình ảnh để nắm bắt nội dung văn bản và bố cục.

Trả lời câu hỏi trực quan với RAG

Trả lời câu hỏi trực quan (VQA) là nhiệm vụ mà hệ thống AI trả lời các câu hỏi về hình ảnh. Nhiều hệ thống VQA hiện tại tập trung vào việc trả lời các câu hỏi về một tài liệu duy nhất mà không cần tìm kiếm thông tin bổ sung - đây được gọi là thiết lập đóng.

VDocRAG là một khuôn khổ RAG có cách tiếp cận thực tế hơn. Nó tích hợp VQA với khả năng truy xuất các tài liệu có liên quan trước. Điều này hữu ích trong các tình huống thực tế khi câu hỏi của người dùng có thể áp dụng cho một trong nhiều tài liệu và hệ thống cần tìm đúng tài liệu trước khi trả lời. Để thực hiện điều này, VDocRAG sử dụng VLM để phân tích tài liệu dưới dạng hình ảnh, bảo toàn cả văn bản và cấu trúc trực quan của chúng.

Điều này làm cho VDocRAG đặc biệt có tác động trong các ứng dụng như tìm kiếm doanh nghiệp, tự động hóa tài liệu và hỗ trợ khách hàng . Nó có thể giúp các nhóm nhanh chóng trích xuất câu trả lời từ các tài liệu phức tạp, được định dạng trực quan, như hướng dẫn sử dụng hoặc tệp chính sách, trong đó việc hiểu bố cục cũng quan trọng như việc đọc các từ.

__wf_reserved_thừa kế
Hình 5. Sự khác biệt giữa các giải pháp dựa trên VDocRAG và LLM.

Cải thiện chú thích hình ảnh với RAG

Chú thích hình ảnh liên quan đến việc tạo ra mô tả bằng văn bản về những gì đang diễn ra trong hình ảnh. Nó được sử dụng trong nhiều ứng dụng khác nhau - từ việc làm cho nội dung trực tuyến dễ truy cập hơn đến hỗ trợ tìm kiếm hình ảnh và hỗ trợ hệ thống kiểm duyệt và đề xuất nội dung.

Tuy nhiên, việc tạo chú thích chính xác không phải lúc nào cũng dễ dàng đối với các mô hình AI. Đặc biệt khó khăn khi hình ảnh hiển thị thứ gì đó khác với thứ mà mô hình được đào tạo. Nhiều hệ thống chú thích phụ thuộc rất nhiều vào dữ liệu đào tạo, vì vậy khi đối mặt với các cảnh không quen thuộc, chú thích của chúng có thể trở nên mơ hồ hoặc không chính xác.

Để giải quyết vấn đề này, các nhà nghiên cứu đã phát triển Re-ViLM , một phương pháp đưa thế hệ tăng cường truy xuất (RAG) vào chú thích hình ảnh. Thay vì tạo chú thích từ đầu, Re-ViLM sẽ truy xuất các cặp hình ảnh-văn bản tương tự từ cơ sở dữ liệu và sử dụng chúng để hướng dẫn đầu ra chú thích. 

Cách tiếp cận dựa trên truy xuất này giúp mô hình đưa các mô tả của nó vào các ví dụ có liên quan, cải thiện cả độ chính xác và tính trôi chảy. Kết quả ban đầu cho thấy Re-ViLM tạo ra các chú thích tự nhiên hơn, có nhận thức về ngữ cảnh bằng cách sử dụng các ví dụ thực tế, giúp giảm các mô tả mơ hồ hoặc không chính xác.

__wf_reserved_thừa kế
Hình 6. Re-ViLM cải thiện chú thích hình ảnh bằng cách lấy các ví dụ văn bản trực quan.

Ưu và nhược điểm của việc sử dụng RAG để hiểu dữ liệu trực quan

Sau đây là cái nhìn nhanh về những lợi ích của việc áp dụng các kỹ thuật tạo dữ liệu tăng cường để thu thập và sử dụng thông tin trực quan: 

  • Khả năng tóm tắt nâng cao : Tóm tắt có thể kết hợp thông tin chi tiết từ hình ảnh (như biểu đồ xu hướng hoặc các yếu tố đồ họa thông tin), không chỉ là văn bản.
  • Tìm kiếm và truy xuất mạnh mẽ hơn : Các bước truy xuất có thể xác định các trang trực quan có liên quan ngay cả khi không có từ khóa trong văn bản, bằng cách sử dụng khả năng hiểu biết dựa trên hình ảnh.
  • Hỗ trợ tài liệu được quét, viết tay hoặc dựa trên hình ảnh: Đường truyền RAG được VLM kích hoạt có thể xử lý nội dung mà các mô hình chỉ có văn bản không thể đọc được.

Mặc dù có những lợi ích này, vẫn có một số hạn chế cần lưu ý khi sử dụng RAG để làm việc với dữ liệu trực quan. Sau đây là một số hạn chế chính:

  • Yêu cầu tính toán cao: Phân tích cả hình ảnh và văn bản sử dụng nhiều bộ nhớ và sức mạnh xử lý hơn, có thể làm chậm hiệu suất hoặc tăng chi phí.
  • Mối quan ngại về quyền riêng tư và bảo mật dữ liệu : Các tài liệu trực quan, đặc biệt là trong các lĩnh vực như chăm sóc sức khỏe hoặc tài chính, có thể chứa thông tin nhạy cảm làm phức tạp quy trình truy xuất và xử lý.
  • Thời gian suy luận dài hơn: Do xử lý trực quan làm tăng thêm độ phức tạp nên việc tạo phản hồi có thể mất nhiều thời gian hơn so với hệ thống chỉ có văn bản.

Những điểm chính

Retrieval-augmented generation đang cải thiện cách các mô hình ngôn ngữ lớn trả lời các câu hỏi bằng cách cho phép chúng lấy thông tin có liên quan, cập nhật từ các nguồn bên ngoài. Khi kết hợp với thị giác máy tính, các hệ thống này có thể xử lý không chỉ văn bản mà còn cả nội dung trực quan, chẳng hạn như biểu đồ, bảng, hình ảnh và tài liệu được quét, dẫn đến phản hồi chính xác và toàn diện hơn.

Cách tiếp cận này giúp LLM phù hợp hơn với các nhiệm vụ thực tế liên quan đến các tài liệu phức tạp. Bằng cách kết hợp khả năng truy xuất và hiểu biết trực quan, các mô hình này có thể diễn giải các định dạng đa dạng hiệu quả hơn và cung cấp những hiểu biết hữu ích hơn trong bối cảnh thực tế, hàng ngày.

Tham gia cộng đồng đang phát triển của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu sâu hơn về AI. Sẵn sàng bắt đầu các dự án thị giác máy tính của riêng bạn? Hãy xem các tùy chọn cấp phép của chúng tôi. Khám phá thêm về AI trong chăm sóc sức khỏethị giác máy tính trong bán lẻ trên các trang giải pháp của chúng tôi!

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard