Thị giác AI

Cải thiện các ứng dụng AI với RAG và thị giác máy tính

Tìm hiểu cách kết hợp RAG với thị giác máy tính đang giúp các hệ thống AI diễn giải tài liệu, hình ảnh và nội dung thực tế phức tạp.

ABAbirami Vina

4 min readMay 28, 2025

Cải thiện các ứng dụng AI với RAG và thị giác máy tính

Sử dụng các công cụ AI như ChatGPT hoặc Gemini đang nhanh chóng trở thành một cách phổ biến để tìm kiếm thông tin. Cho dù bạn đang soạn thảo tin nhắn, tóm tắt tài liệu hay trả lời câu hỏi, những công cụ này thường cung cấp giải pháp nhanh chóng và dễ dàng hơn.

Nhưng nếu bạn đã từng sử dụng mô hình ngôn ngữ lớn (LLM) một vài lần, có lẽ bạn đã nhận thấy những hạn chế của chúng. Khi được yêu cầu với các truy vấn có tính chuyên môn cao hoặc nhạy cảm về thời gian, chúng có thể phản hồi bằng các câu trả lời không chính xác, dù thường là với vẻ tự tin.

Điều này xảy ra do các LLM độc lập chỉ dựa vào dữ liệu mà chúng đã được huấn luyện. Chúng không có quyền truy cập vào các cập nhật mới nhất hoặc kiến thức chuyên môn ngoài tập dữ liệu đó. Kết quả là câu trả lời của chúng có thể đã lỗi thời hoặc không chính xác.

Để giúp giải quyết vấn đề này, các nhà nghiên cứu đã phát triển một phương pháp gọi là truy xuất tăng cường thế hệ (RAG). RAG tăng cường sức mạnh cho các mô hình ngôn ngữ bằng cách cho phép chúng lấy thông tin mới, có liên quan từ các nguồn đáng tin cậy khi phản hồi các truy vấn.

Trong bài viết này, chúng tôi sẽ khám phá cách thức hoạt động của RAG và cách nó nâng cao các công cụ AI bằng cách truy xuất thông tin liên quan và cập nhật. Chúng ta cũng sẽ xem xét cách nó hoạt động cùng với thị giác máy tính, một lĩnh vực của trí tuệ nhân tạo tập trung vào việc diễn giải dữ liệu thị giác, để giúp các hệ thống hiểu không chỉ văn bản mà cả hình ảnh, bố cục và các tài liệu phức tạp về mặt hình ảnh.

Link to this sectionTìm hiểu về truy xuất tăng cường thế hệ (RAG)#

Khi đặt câu hỏi cho một chatbot AI, chúng ta thường kỳ vọng nhiều hơn là chỉ một câu trả lời nghe có vẻ hay. Lý tưởng nhất, một câu trả lời tốt phải rõ ràng, chính xác và thực sự hữu ích. Để thực hiện được điều đó, mô hình AI cần nhiều hơn là kỹ năng ngôn ngữ; nó còn cần quyền truy cập vào thông tin chính xác, đặc biệt là đối với các chủ đề cụ thể hoặc nhạy cảm về thời gian.

RAG là một kỹ thuật giúp thu hẹp khoảng cách này. Nó kết hợp khả năng hiểu và tạo văn bản của mô hình ngôn ngữ với sức mạnh truy xuất thông tin liên quan từ các nguồn bên ngoài. Thay vì chỉ dựa vào dữ liệu huấn luyện, mô hình chủ động lấy nội dung hỗ trợ từ các cơ sở tri thức đáng tin cậy trong khi tạo phản hồi của mình.

Các trường hợp sử dụng RAG chính

Hình 1. Các trường hợp sử dụng RAG chính. Hình ảnh của tác giả.

Bạn có thể coi nó giống như việc hỏi ai đó một câu hỏi và họ tham khảo một nguồn tin cậy trước khi trả lời. Câu trả lời vẫn là của riêng họ, nhưng nó được thông tin bởi những dữ liệu phù hợp và cập nhật nhất.

Cách tiếp cận này giúp các LLM phản hồi bằng những câu trả lời hoàn thiện, chính xác và được điều chỉnh theo truy vấn của người dùng, khiến chúng trở nên đáng tin cậy hơn nhiều trong các ứng dụng thực tế nơi độ chính xác thực sự quan trọng.

Link to this sectionCái nhìn về cách thức hoạt động của RAG#

RAG nâng cao cách một mô hình ngôn ngữ lớn phản hồi bằng cách giới thiệu hai bước quan trọng: truy xuất và tạo. Đầu tiên, nó truy xuất thông tin liên quan từ một cơ sở tri thức bên ngoài. Sau đó, nó sử dụng thông tin đó để tạo ra một phản hồi được định hình tốt và nhận thức ngữ cảnh.

Hãy cùng xem một ví dụ đơn giản để thấy cách quy trình này hoạt động. Hãy tưởng tượng bạn đang sử dụng một trợ lý AI để quản lý tài chính cá nhân và muốn kiểm tra xem liệu mình có nằm trong mục tiêu chi tiêu cho tháng hay không.

Quy trình bắt đầu khi bạn hỏi trợ lý một câu hỏi như, "Tôi có bám sát ngân sách của mình trong tháng này không?" Thay vì chỉ dựa vào những gì nó học được trong quá trình huấn luyện, hệ thống sử dụng một trình truy xuất để tìm kiếm qua các hồ sơ tài chính gần đây nhất của bạn (như sao kê ngân hàng hoặc tóm tắt giao dịch). Nó tập trung vào việc hiểu ý định đằng sau câu hỏi của bạn và thu thập thông tin liên quan nhất.

Sau khi thông tin đó được truy xuất, mô hình ngôn ngữ sẽ tiếp quản. Nó xử lý cả câu hỏi của bạn và dữ liệu lấy từ hồ sơ của bạn để tạo ra một câu trả lời rõ ràng, hữu ích. Thay vì liệt kê các chi tiết thô, phản hồi sẽ tóm tắt chi tiêu của bạn và cung cấp cho bạn thông tin chi tiết trực tiếp, có ý nghĩa - chẳng hạn như xác nhận liệu bạn đã đạt được mục tiêu của mình hay chưa và chỉ ra các lĩnh vực chi tiêu chính.

Cách tiếp cận này giúp LLM cung cấp các phản hồi không chỉ chính xác mà còn dựa trên thông tin thực tế, cập nhật của bạn, khiến trải nghiệm hữu ích hơn nhiều so với một mô hình chỉ làm việc với dữ liệu huấn luyện tĩnh.

Tìm hiểu cách RAG hoạt động

Hình 2. Tìm hiểu cách RAG hoạt động.

Link to this sectionNhu cầu về các hệ thống RAG đa phương thức#

Thông thường, thông tin không phải lúc nào cũng được chia sẻ dưới dạng văn bản thuần túy. Từ các bản quét y tế, sơ đồ đến slide thuyết trình và tài liệu được quét, hình ảnh thường mang các chi tiết quan trọng. Các LLM truyền thống, vốn chủ yếu được xây dựng để đọc và hiểu văn bản, có thể gặp khó khăn với loại nội dung này.

Tuy nhiên, RAG có thể được sử dụng cùng với thị giác máy tính để thu hẹp khoảng cách đó. Khi cả hai được kết hợp lại, chúng tạo thành cái gọi là hệ thống RAG đa phương thức - một thiết lập có thể xử lý cả văn bản và hình ảnh, giúp các chatbot AI cung cấp câu trả lời chính xác và đầy đủ hơn.

Cốt lõi của cách tiếp cận này là các mô hình thị giác-ngôn ngữ (VLM), được thiết kế để xử lý và suy luận trên cả hai loại đầu vào. Trong thiết lập này, RAG truy xuất thông tin liên quan nhất từ các nguồn dữ liệu lớn, trong khi VLM, được kích hoạt bởi thị giác máy tính, diễn giải hình ảnh, bố cục và sơ đồ.

Điều này đặc biệt hữu ích cho các tài liệu thực tế, như biểu mẫu đã quét, báo cáo y tế hoặc slide thuyết trình, nơi các chi tiết quan trọng có thể được tìm thấy trong cả văn bản và hình ảnh. Ví dụ, khi phân tích một tài liệu bao gồm hình ảnh cùng với bảng và đoạn văn, một hệ thống đa phương thức có thể trích xuất các yếu tố thị giác, tạo tóm tắt về những gì chúng thể hiện và kết hợp điều đó với văn bản xung quanh để đưa ra phản hồi đầy đủ và hữu ích hơn.

RAG đa phương thức sử dụng hình ảnh và văn bản để cung cấp câu trả lời tốt hơn

Hình 3. RAG đa phương thức sử dụng hình ảnh và văn bản để cung cấp câu trả lời tốt hơn.

Link to this sectionCác ứng dụng của RAG cho dữ liệu thị giác#

Bây giờ chúng ta đã thảo luận về RAG là gì và cách nó hoạt động với thị giác máy tính, hãy xem xét một số ví dụ thực tế và các dự án nghiên cứu cho thấy cách tiếp cận này đang được sử dụng như thế nào.

Link to this sectionHiểu tài liệu thị giác với VisRAG#

Giả sử bạn đang cố gắng trích xuất thông tin chi tiết từ một báo cáo tài chính hoặc một tài liệu pháp lý đã được quét. Các loại tệp này thường bao gồm không chỉ văn bản mà còn cả bảng, biểu đồ và bố cục giúp giải thích thông tin. Một mô hình ngôn ngữ đơn giản có thể bỏ qua hoặc diễn giải sai các yếu tố thị giác này, dẫn đến các phản hồi không đầy đủ hoặc không chính xác.

VisRAG được các nhà nghiên cứu tạo ra để giải quyết thách thức này. Đây là một quy trình RAG dựa trên VLM coi mỗi trang như một hình ảnh thay vì chỉ xử lý văn bản. Điều này cho phép hệ thống hiểu cả nội dung và cấu trúc thị giác của nó. Kết quả là, nó có thể tìm thấy các phần liên quan nhất và đưa ra các câu trả lời rõ ràng hơn, chính xác hơn và dựa trên toàn bộ ngữ cảnh của tài liệu.

VisRAG đọc tài liệu dưới dạng hình ảnh để nắm bắt nội dung và bố cục

Hình 4. VisRAG có thể đọc tài liệu dưới dạng hình ảnh để nắm bắt nội dung văn bản và bố cục.

Link to this sectionTrả lời câu hỏi thị giác với RAG#

Trả lời câu hỏi thị giác (VQA) là một nhiệm vụ mà một hệ thống AI trả lời các câu hỏi về hình ảnh. Nhiều hệ thống VQA hiện có tập trung vào việc trả lời câu hỏi về một tài liệu duy nhất mà không cần tìm kiếm thêm thông tin - đây được gọi là thiết lập đóng.

VDocRAG là một khung RAG áp dụng cách tiếp cận thực tế hơn. Nó tích hợp VQA với khả năng truy xuất các tài liệu liên quan trước. Điều này hữu ích trong các tình huống thực tế khi câu hỏi của người dùng có thể áp dụng cho một trong nhiều tài liệu và hệ thống cần tìm đúng tài liệu trước khi trả lời. Để làm điều này, VDocRAG sử dụng VLM để phân tích tài liệu dưới dạng hình ảnh, bảo tồn cả văn bản và cấu trúc thị giác của chúng.

Điều này làm cho VDocRAG đặc biệt hiệu quả trong các ứng dụng như tìm kiếm doanh nghiệp, tự động hóa tài liệu và hỗ trợ khách hàng. Nó có thể giúp các nhóm nhanh chóng trích xuất câu trả lời từ các tài liệu phức tạp, có định dạng thị giác, như hướng dẫn sử dụng hoặc tệp chính sách, nơi việc hiểu bố cục cũng quan trọng như việc đọc các từ ngữ.

Sự khác biệt giữa VDocRAG và các giải pháp dựa trên LLM

Hình 5. Sự khác biệt giữa VDocRAG và các giải pháp dựa trên LLM.

Link to this sectionCải thiện việc chú thích hình ảnh với RAG#

Chú thích hình ảnh bao gồm việc tạo ra một mô tả bằng văn bản về những gì đang xảy ra trong một hình ảnh. Nó được sử dụng trong nhiều ứng dụng - từ việc làm cho nội dung trực tuyến dễ tiếp cận hơn đến việc hỗ trợ tìm kiếm hình ảnh và hỗ trợ kiểm duyệt nội dung cũng như các hệ thống đề xuất.

Tuy nhiên, việc tạo ra các chú thích chính xác không phải lúc nào cũng dễ dàng đối với các mô hình AI. Đặc biệt khó khăn khi hình ảnh hiển thị nội dung khác với những gì mô hình đã được huấn luyện. Nhiều hệ thống chú thích dựa nhiều vào dữ liệu huấn luyện, vì vậy khi đối mặt với các cảnh không quen thuộc, các chú thích của chúng có thể trở nên mơ hồ hoặc không chính xác.

Để giải quyết vấn đề này, các nhà nghiên cứu đã phát triển Re-ViLM, một phương pháp mang truy xuất tăng cường thế hệ (RAG) vào việc chú thích hình ảnh. Thay vì tạo chú thích từ đầu, Re-ViLM truy xuất các cặp hình ảnh-văn bản tương tự từ cơ sở dữ liệu và sử dụng chúng để hướng dẫn đầu ra chú thích.

Cách tiếp cận dựa trên truy xuất này giúp mô hình căn cứ các mô tả của nó vào các ví dụ liên quan, cải thiện cả độ chính xác và độ trôi chảy. Các kết quả ban đầu cho thấy Re-ViLM tạo ra các chú thích tự nhiên, nhận thức ngữ cảnh hơn bằng cách sử dụng các ví dụ thực tế, giúp giảm bớt các mô tả mơ hồ hoặc không chính xác.

Re-ViLM cải thiện chú thích hình ảnh bằng cách truy xuất các ví dụ hình ảnh-văn bản

Hình 6. Re-ViLM cải thiện chú thích hình ảnh bằng cách truy xuất các ví dụ hình ảnh-văn bản.

Link to this sectionƯu và nhược điểm của việc sử dụng RAG để hiểu dữ liệu thị giác#

Dưới đây là cái nhìn nhanh về các lợi ích của việc áp dụng các kỹ thuật truy xuất tăng cường thế hệ để truy xuất và sử dụng thông tin thị giác:

Khả năng tóm tắt nâng cao: Các bản tóm tắt có thể kết hợp thông tin chi tiết từ hình ảnh (như xu hướng biểu đồ hoặc các yếu tố đồ họa thông tin), không chỉ văn bản.
Tìm kiếm và truy xuất mạnh mẽ hơn: Các bước truy xuất có thể xác định các trang thị giác liên quan ngay cả khi không có từ khóa trong văn bản, bằng cách sử dụng khả năng hiểu dựa trên hình ảnh.
Hỗ trợ các tài liệu đã quét, viết tay hoặc dựa trên hình ảnh: Các quy trình RAG được kích hoạt bởi VLM có thể xử lý nội dung mà các mô hình chỉ có văn bản không thể đọc được.

Mặc dù có những lợi ích này, vẫn có một vài hạn chế cần lưu ý khi sử dụng RAG để làm việc với dữ liệu thị giác. Dưới đây là một vài hạn chế chính:

Yêu cầu tính toán cao: Phân tích cả hình ảnh và văn bản sử dụng nhiều bộ nhớ và sức mạnh xử lý hơn, điều này có thể làm chậm hiệu suất hoặc tăng chi phí.
Lo ngại về bảo mật dữ liệu và an ninh: Các tài liệu thị giác, đặc biệt là trong các lĩnh vực như chăm sóc sức khỏe hoặc tài chính, có thể chứa thông tin nhạy cảm gây phức tạp cho các quy trình truy xuất và xử lý.
Thời gian suy luận lâu hơn: Do xử lý thị giác làm tăng thêm độ phức tạp, việc tạo phản hồi có thể mất nhiều thời gian hơn so với các hệ thống chỉ có văn bản.

Link to this sectionCác điểm chính cần lưu ý#

Truy xuất tăng cường thế hệ đang cải thiện cách các mô hình ngôn ngữ lớn trả lời câu hỏi bằng cách cho phép chúng tìm nạp thông tin liên quan, cập nhật từ các nguồn bên ngoài. Khi kết hợp với thị giác máy tính, các hệ thống này có thể xử lý không chỉ văn bản mà cả nội dung thị giác, chẳng hạn như biểu đồ, bảng, hình ảnh và tài liệu đã quét, dẫn đến các phản hồi chính xác và toàn diện hơn.

Cách tiếp cận này làm cho các LLM phù hợp hơn với các tác vụ thực tế liên quan đến tài liệu phức tạp. Bằng cách kết hợp truy xuất và hiểu thị giác, các mô hình này có thể diễn giải các định dạng đa dạng hiệu quả hơn và cung cấp những thông tin chi tiết hữu ích hơn trong các bối cảnh thực tế hàng ngày.

Hãy tham gia cộng đồng đang phát triển của chúng tôi! Khám phá kho lưu trữ GitHub để tìm hiểu sâu hơn về AI. Bạn đã sẵn sàng bắt đầu các dự án thị giác máy tính của riêng mình chưa? Hãy xem các tùy chọn cấp phép của chúng tôi. Khám phá thêm về AI trong chăm sóc sức khỏe và thị giác máy tính trong bán lẻ trên các trang giải pháp của chúng tôi!

Explore solutions

AI trong ngành Robot

Tăng cường sức mạnh cho các cỗ máy thông minh hơn với các model Ultralytics YOLO. AI thị giác trong lĩnh vực robot thúc đẩy khả năng điều hướng tự hành, nhận thức, theo dõi đối tượng và điều khiển thời gian thực.

Cải thiện các ứng dụng AI với RAG và thị giác máy tính

Link to this sectionTìm hiểu về truy xuất tăng cường thế hệ (RAG)#

Link to this sectionCái nhìn về cách thức hoạt động của RAG#

Link to this sectionNhu cầu về các hệ thống RAG đa phương thức#

Link to this sectionCác ứng dụng của RAG cho dữ liệu thị giác#

Link to this sectionHiểu tài liệu thị giác với VisRAG#

Link to this sectionTrả lời câu hỏi thị giác với RAG#

Link to this sectionCải thiện việc chú thích hình ảnh với RAG#

Link to this sectionƯu và nhược điểm của việc sử dụng RAG để hiểu dữ liệu thị giác#

Link to this sectionCác điểm chính cần lưu ý#

Explore solutions

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

AI trong ngành Robot

AI trong Logistics

AI trong ngành Bán lẻ

AI trong chăm sóc sức khỏe

AI trong sản xuất

AI trong Ô tô

AI trong Nông nghiệp

Hãy cùng nhau xây dựng tương lai của AI!