Tìm hiểu cách kết hợp tạo sinh tăng cường truy xuất (RAG) với thị giác máy tính đang giúp các hệ thống AI diễn giải tài liệu, hình ảnh và nội dung phức tạp trong thế giới thực.

Tìm hiểu cách kết hợp tạo sinh tăng cường truy xuất (RAG) với thị giác máy tính đang giúp các hệ thống AI diễn giải tài liệu, hình ảnh và nội dung phức tạp trong thế giới thực.

Sử dụng các công cụ AI như ChatGPT hoặc Gemini đang nhanh chóng trở thành một cách phổ biến để tìm kiếm thông tin. Cho dù bạn đang soạn thảo tin nhắn, tóm tắt tài liệu hay trả lời câu hỏi, những công cụ này thường cung cấp một giải pháp nhanh hơn, dễ dàng hơn.
Nhưng nếu bạn đã sử dụng các mô hình ngôn ngữ lớn (LLM) một vài lần, bạn có thể đã nhận thấy những hạn chế của chúng. Khi được nhắc với các truy vấn có tính đặc thù cao hoặc nhạy cảm về thời gian, chúng có thể trả lời bằng những câu trả lời không chính xác, thường là một cách tự tin.
Điều này xảy ra vì các LLM độc lập chỉ dựa vào dữ liệu mà chúng được huấn luyện. Chúng không có quyền truy cập vào các bản cập nhật mới nhất hoặc kiến thức chuyên môn ngoài tập dữ liệu đó. Do đó, câu trả lời của chúng có thể bị lỗi thời hoặc không chính xác.
Để giải quyết vấn đề này, các nhà nghiên cứu đã phát triển một phương pháp gọi là tạo sinh tăng cường truy xuất (retrieval-augmented generation - RAG). RAG tăng cường các mô hình ngôn ngữ bằng cách cho phép chúng lấy thông tin mới và phù hợp từ các nguồn đáng tin cậy khi phản hồi các truy vấn.
Trong bài viết này, chúng ta sẽ khám phá cách RAG hoạt động và cách nó tăng cường các công cụ AI bằng cách truy xuất thông tin liên quan và cập nhật. Chúng ta cũng sẽ xem xét cách nó hoạt động cùng với thị giác máy tính, một lĩnh vực của trí tuệ nhân tạo tập trung vào việc giải thích dữ liệu trực quan, để giúp các hệ thống hiểu không chỉ văn bản mà còn cả hình ảnh, bố cục và các tài liệu phức tạp về mặt hình ảnh.
Khi đặt câu hỏi cho một chatbot AI, chúng ta thường mong đợi nhiều hơn là một câu trả lời nghe có vẻ hay. Lý tưởng nhất, một câu trả lời tốt phải rõ ràng, chính xác và thực sự hữu ích. Để cung cấp được điều đó, mô hình AI cần nhiều hơn là kỹ năng ngôn ngữ; nó cũng cần quyền truy cập vào đúng thông tin, đặc biệt là đối với các chủ đề cụ thể hoặc nhạy cảm về thời gian.
RAG là một kỹ thuật giúp thu hẹp khoảng cách này. Nó kết hợp khả năng hiểu và tạo văn bản của mô hình ngôn ngữ với sức mạnh truy xuất thông tin liên quan từ các nguồn bên ngoài. Thay vì chỉ dựa vào dữ liệu huấn luyện của mình, mô hình chủ động lấy nội dung hỗ trợ từ các cơ sở kiến thức đáng tin cậy trong khi hình thành phản hồi.

Bạn có thể nghĩ về nó giống như việc hỏi ai đó một câu hỏi và nhờ họ tham khảo một tài liệu tham khảo đáng tin cậy trước khi trả lời. Câu trả lời của họ vẫn bằng lời của họ, nhưng nó được thông báo bởi thông tin phù hợp và cập nhật nhất.
Phương pháp này giúp LLM phản hồi bằng các câu trả lời đầy đủ hơn, chính xác hơn và phù hợp hơn với truy vấn của người dùng, làm cho chúng đáng tin cậy hơn nhiều trong các ứng dụng thực tế, nơi độ chính xác thực sự quan trọng.
RAG tăng cường cách một mô hình ngôn ngữ lớn phản hồi bằng cách giới thiệu hai bước chính: truy xuất và tạo. Đầu tiên, nó truy xuất thông tin liên quan từ một cơ sở kiến thức bên ngoài. Sau đó, nó sử dụng thông tin đó để tạo ra một phản hồi có cấu trúc tốt và nhận biết ngữ cảnh.
Hãy xem một ví dụ đơn giản để xem quy trình này hoạt động như thế nào. Hãy tưởng tượng bạn đang sử dụng một trợ lý AI để quản lý tài chính cá nhân của mình và muốn kiểm tra xem bạn có tuân thủ mục tiêu chi tiêu của mình trong tháng hay không.
Quy trình bắt đầu khi bạn hỏi trợ lý một câu hỏi như, "Tôi có tuân thủ ngân sách của mình trong tháng này không?" Thay vì chỉ dựa vào những gì nó đã học được trong quá trình huấn luyện, hệ thống sử dụng một trình truy xuất để tìm kiếm trong hồ sơ tài chính gần đây nhất của bạn (những thứ như sao kê ngân hàng hoặc tóm tắt giao dịch). Nó tập trung vào việc hiểu ý định đằng sau câu hỏi của bạn và thu thập thông tin phù hợp nhất.
Sau khi thông tin đó được truy xuất, mô hình ngôn ngữ sẽ tiếp quản. Nó xử lý cả câu hỏi của bạn và dữ liệu được lấy từ hồ sơ của bạn để tạo ra một câu trả lời rõ ràng, hữu ích. Thay vì liệt kê các chi tiết thô, phản hồi tóm tắt chi tiêu của bạn và cung cấp cho bạn một cái nhìn sâu sắc trực tiếp, có ý nghĩa - chẳng hạn như xác nhận xem bạn có đạt được mục tiêu của mình hay không và chỉ ra các lĩnh vực chi tiêu chính.
Phương pháp này giúp LLM cung cấp các phản hồi không chỉ chính xác mà còn dựa trên thông tin thực tế, cập nhật của bạn, làm cho trải nghiệm hữu ích hơn nhiều so với một mô hình chỉ hoạt động với dữ liệu huấn luyện tĩnh.

Thông thường, thông tin không phải lúc nào cũng được chia sẻ ở dạng văn bản thuần túy. Từ ảnh chụp y tế và sơ đồ đến các slide thuyết trình và tài liệu được quét, hình ảnh thường mang các chi tiết quan trọng. Các LLM truyền thống, chủ yếu được xây dựng để đọc và hiểu văn bản, có thể gặp khó khăn với loại nội dung này.
Tuy nhiên, RAG có thể được sử dụng cùng với thị giác máy tính để thu hẹp khoảng cách đó. Khi cả hai được kết hợp với nhau, chúng tạo thành cái được gọi là hệ thống RAG đa phương thức - một thiết lập có thể xử lý cả văn bản và hình ảnh, giúp chatbot AI cung cấp các câu trả lời chính xác và đầy đủ hơn.
Cốt lõi của phương pháp này là các mô hình ngôn ngữ thị giác (vision-language models - VLMs), được thiết kế để xử lý và suy luận trên cả hai loại đầu vào. Trong thiết lập này, RAG truy xuất thông tin phù hợp nhất từ các nguồn dữ liệu lớn, trong khi VLM, được hỗ trợ bởi thị giác máy tính, diễn giải hình ảnh, bố cục và sơ đồ.
Điều này đặc biệt hữu ích cho các tài liệu thực tế, như biểu mẫu được quét, báo cáo y tế hoặc slide thuyết trình, nơi các chi tiết quan trọng có thể được tìm thấy trong cả văn bản và hình ảnh. Ví dụ: khi phân tích một tài liệu bao gồm hình ảnh cùng với bảng và đoạn văn, một hệ thống đa phương thức có thể trích xuất các yếu tố trực quan, tạo ra một bản tóm tắt về những gì chúng hiển thị và kết hợp nó với văn bản xung quanh để cung cấp một phản hồi đầy đủ và hữu ích hơn.

Sau khi thảo luận về RAG là gì và cách nó hoạt động với thị giác máy tính, hãy cùng xem xét một số ví dụ thực tế và các dự án nghiên cứu minh họa cách tiếp cận này đang được sử dụng.
Giả sử bạn đang cố gắng trích xuất thông tin chi tiết từ một báo cáo tài chính hoặc một tài liệu pháp lý được quét. Các loại tệp này thường bao gồm không chỉ văn bản mà còn cả bảng, biểu đồ và bố cục giúp giải thích thông tin. Một mô hình ngôn ngữ đơn giản có thể bỏ qua hoặc hiểu sai các yếu tố trực quan này, dẫn đến các phản hồi không đầy đủ hoặc không chính xác.
VisRAG được tạo ra bởi các nhà nghiên cứu để giải quyết thách thức này. Đây là một quy trình RAG dựa trên VLM, coi mỗi trang là một hình ảnh thay vì chỉ xử lý văn bản. Điều này cho phép hệ thống hiểu cả nội dung và cấu trúc trực quan của nó. Do đó, nó có thể tìm thấy các phần liên quan nhất và đưa ra các câu trả lời rõ ràng hơn, chính xác hơn và dựa trên toàn bộ ngữ cảnh của tài liệu.

Trả lời câu hỏi trực quan (VQA) là một tác vụ trong đó một hệ thống AI trả lời các câu hỏi về hình ảnh. Nhiều hệ thống VQA hiện có tập trung vào việc trả lời các câu hỏi về một tài liệu duy nhất mà không cần tìm kiếm thông tin bổ sung - điều này được gọi là cài đặt khép kín.
VDocRAG là một framework RAG có cách tiếp cận thực tế hơn. Nó tích hợp VQA với khả năng truy xuất các tài liệu liên quan trước. Điều này hữu ích trong các tình huống thực tế, nơi câu hỏi của người dùng có thể áp dụng cho một trong nhiều tài liệu và hệ thống cần tìm đúng tài liệu trước khi trả lời. Để thực hiện việc này, VDocRAG sử dụng VLM để phân tích tài liệu dưới dạng hình ảnh, giữ lại cả văn bản và cấu trúc trực quan của chúng.
Điều này làm cho VDocRAG đặc biệt có tác động trong các ứng dụng như tìm kiếm doanh nghiệp, tự động hóa tài liệu và hỗ trợ khách hàng. Nó có thể giúp các nhóm nhanh chóng trích xuất câu trả lời từ các tài liệu phức tạp, được định dạng trực quan, như sách hướng dẫn hoặc tệp chính sách, trong đó việc hiểu bố cục cũng quan trọng như đọc các từ.

Chú thích ảnh (Image captioning) bao gồm việc tạo ra một đoạn mô tả bằng văn bản về những gì đang diễn ra trong một hình ảnh. Nó được sử dụng trong nhiều ứng dụng khác nhau - từ việc làm cho nội dung trực tuyến dễ tiếp cận hơn đến hỗ trợ tìm kiếm hình ảnh và hỗ trợ kiểm duyệt nội dung và các hệ thống đề xuất.
Tuy nhiên, việc tạo ra các chú thích chính xác không phải lúc nào cũng dễ dàng đối với các mô hình AI. Điều này đặc biệt khó khăn khi hình ảnh hiển thị một cái gì đó khác với những gì mô hình đã được huấn luyện. Nhiều hệ thống chú thích phụ thuộc nhiều vào dữ liệu huấn luyện, vì vậy khi đối mặt với những cảnh không quen thuộc, chú thích của chúng có thể trở nên mơ hồ hoặc không chính xác.
Để giải quyết vấn đề này, các nhà nghiên cứu đã phát triển Re-ViLM, một phương pháp đưa tạo sinh tăng cường truy xuất (RAG) vào chú thích ảnh. Thay vì tạo chú thích từ đầu, Re-ViLM truy xuất các cặp hình ảnh-văn bản tương tự từ cơ sở dữ liệu và sử dụng chúng để hướng dẫn đầu ra chú thích.
Phương pháp dựa trên truy xuất này giúp mô hình đặt nền tảng cho các mô tả của nó trong các ví dụ liên quan, cải thiện cả độ chính xác và độ trôi chảy. Kết quả ban đầu cho thấy rằng Re-ViLM tạo ra các chú thích tự nhiên, nhận biết ngữ cảnh hơn bằng cách sử dụng các ví dụ thực tế, giúp giảm các mô tả mơ hồ hoặc không chính xác.

Dưới đây là một cái nhìn nhanh về những lợi ích của việc áp dụng các kỹ thuật tạo sinh tăng cường truy xuất để truy xuất và sử dụng thông tin trực quan:
Mặc dù có những lợi ích này, vẫn còn một vài hạn chế cần lưu ý khi sử dụng RAG để làm việc với dữ liệu trực quan. Dưới đây là một vài trong số những hạn chế chính:
Retrieval-augmented generation (tạo sinh tăng cường khả năng truy xuất) đang cải thiện cách các large language model (mô hình ngôn ngữ lớn) trả lời câu hỏi bằng cách cho phép chúng tìm nạp thông tin liên quan, cập nhật từ các nguồn bên ngoài. Khi kết hợp với computer vision (thị giác máy tính), các hệ thống này có thể xử lý không chỉ văn bản mà còn cả nội dung trực quan, chẳng hạn như biểu đồ, bảng, hình ảnh và tài liệu được quét, dẫn đến các phản hồi chính xác và toàn diện hơn.
Cách tiếp cận này làm cho LLM (mô hình ngôn ngữ lớn) phù hợp hơn với các tác vụ thực tế liên quan đến các tài liệu phức tạp. Bằng cách kết hợp khả năng truy xuất và hiểu biết trực quan, các mô hình này có thể diễn giải các định dạng đa dạng hiệu quả hơn và cung cấp những hiểu biết hữu ích hơn trong các bối cảnh thực tế hàng ngày.
Tham gia cộng đồng đang phát triển của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để tìm hiểu sâu hơn về AI. Bạn đã sẵn sàng bắt đầu các dự án computer vision (thị giác máy tính) của riêng mình chưa? Hãy xem các tùy chọn cấp phép của chúng tôi. Khám phá thêm về AI trong lĩnh vực chăm sóc sức khỏe và computer vision (thị giác máy tính) trong lĩnh vực bán lẻ trên các trang giải pháp của chúng tôi!