Tìm hiểu về các model ngôn ngữ hình ảnh và ứng dụng của chúng
Tìm hiểu về các model ngôn ngữ hình ảnh, cách chúng hoạt động và các ứng dụng khác nhau của chúng trong AI. Khám phá cách các model này kết hợp khả năng thị giác và ngôn ngữ.

Trong một bài viết trước, chúng tôi đã khám phá cách GPT-4o có thể hiểu và mô tả hình ảnh bằng ngôn từ. Chúng ta cũng đang thấy khả năng này ở các mô hình mới khác như Google Gemini và Claude 3. Hôm nay, chúng ta sẽ đi sâu hơn vào khái niệm này để giải thích cách các Mô hình ngôn ngữ thị giác hoạt động và cách chúng kết hợp dữ liệu thị giác và văn bản.
Các mô hình này có thể được sử dụng để thực hiện một loạt các tác vụ ấn tượng, chẳng hạn như tạo chú thích chi tiết cho ảnh, trả lời câu hỏi về hình ảnh và thậm chí tạo nội dung thị giác mới dựa trên mô tả văn bản. Bằng cách tích hợp liền mạch thông tin thị giác và ngôn ngữ, các Mô hình ngôn ngữ thị giác đang thay đổi cách chúng ta tương tác với công nghệ và hiểu thế giới xung quanh.
Link to this sectionCách các mô hình ngôn ngữ thị giác hoạt động#
Trước khi xem xét nơi các Mô hình ngôn ngữ thị giác (VLM) có thể được ứng dụng, hãy hiểu chúng là gì và cách chúng hoạt động. VLM là các mô hình AI tiên tiến kết hợp khả năng của các mô hình thị giác và ngôn ngữ để xử lý cả hình ảnh và văn bản. Các mô hình này tiếp nhận hình ảnh cùng với các mô tả văn bản của chúng và học cách kết nối cả hai. Phần thị giác của mô hình nắm bắt các chi tiết từ hình ảnh, trong khi phần ngôn ngữ hiểu văn bản. Sự phối hợp này cho phép VLM hiểu và phân tích cả hình ảnh và văn bản.
Dưới đây là các khả năng chính của Mô hình ngôn ngữ thị giác:
- Chú thích hình ảnh (Image Captioning): Tạo văn bản mô tả dựa trên nội dung của hình ảnh.
- Trả lời câu hỏi thị giác (VQA): Trả lời các câu hỏi liên quan đến nội dung của một hình ảnh.
- Chuyển đổi văn bản thành Tạo ảnh: Tạo hình ảnh dựa trên mô tả văn bản.
- Truy xuất hình ảnh-văn bản: Tìm kiếm hình ảnh liên quan cho một truy vấn văn bản nhất định và ngược lại.
- Tạo nội dung đa phương thức: Kết hợp hình ảnh và văn bản để tạo nội dung mới.
- Hiểu cảnh quan và Phát hiện đối tượng: Nhận dạng và phân loại các đối tượng và chi tiết bên trong một hình ảnh.

Hình 1. Ví dụ về khả năng của một mô hình ngôn ngữ thị giác.
Tiếp theo, hãy khám phá các kiến trúc VLM phổ biến và các kỹ thuật học tập được sử dụng bởi các mô hình nổi tiếng như CLIP, SimVLM và VisualGPT.
Link to this sectionHọc đối chiếu (Contrastive learning)#
Học đối chiếu là một kỹ thuật giúp các mô hình học bằng cách so sánh sự khác biệt giữa các điểm dữ liệu. Nó tính toán mức độ tương đồng hoặc khác biệt giữa các thực thể và nhằm mục tiêu giảm thiểu hàm mất mát đối chiếu (contrastive loss), vốn dùng để đo lường các khác biệt này. Kỹ thuật này đặc biệt hữu ích trong học bán giám sát, nơi một tập hợp nhỏ các ví dụ được gán nhãn hướng dẫn mô hình gán nhãn cho dữ liệu mới chưa từng thấy. Ví dụ, để hiểu con mèo trông như thế nào, mô hình so sánh nó với các hình ảnh mèo tương tự và hình ảnh chó. Bằng cách xác định các đặc điểm như cấu trúc khuôn mặt, kích thước cơ thể và lông, các kỹ thuật học đối chiếu có thể phân biệt giữa mèo và chó.

Hình 2. Cách hoạt động của học đối chiếu.
CLIP là một Mô hình Ngôn ngữ Thị giác sử dụng học đối chiếu để khớp các mô tả văn bản với hình ảnh. Nó hoạt động qua ba bước đơn giản. Đầu tiên, nó huấn luyện các thành phần của mô hình hiểu cả văn bản và hình ảnh. Thứ hai, nó chuyển đổi các danh mục trong một tập dữ liệu thành các mô tả văn bản. Thứ ba, nó xác định mô tả khớp nhất cho một hình ảnh nhất định. Nhờ phương pháp này, mô hình CLIP có thể đưa ra các dự đoán chính xác ngay cả đối với các tác vụ mà nó chưa được huấn luyện cụ thể.
Link to this sectionPrefixLM#
PrefixLM là một kỹ thuật Xử lý ngôn ngữ tự nhiên (NLP) được sử dụng để huấn luyện mô hình. Nó bắt đầu với một phần của câu (tiền tố) và học cách dự đoán từ tiếp theo. Trong các Mô hình Ngôn ngữ Thị giác, PrefixLM giúp mô hình dự đoán các từ tiếp theo dựa trên hình ảnh và một đoạn văn bản nhất định. Nó sử dụng Vision Transformer (ViT), chia hình ảnh thành các miếng nhỏ (patches), mỗi miếng đại diện cho một phần của hình ảnh và xử lý chúng theo trình tự.

Hình 3. Ví dụ về việc huấn luyện VLM sử dụng kỹ thuật PrefixLM.
SimVLM là một VLM sử dụng kỹ thuật học PrefixLM. Nó sử dụng kiến trúc Transformer đơn giản hơn so với các mô hình trước đây nhưng đạt được kết quả tốt hơn trong nhiều bài kiểm tra. Kiến trúc mô hình của nó bao gồm việc học cách liên kết hình ảnh với các tiền tố văn bản bằng cách sử dụng bộ mã hóa transformer (transformer encoder) và sau đó tạo văn bản bằng cách sử dụng bộ giải mã transformer (transformer decoder).
Link to this sectionKết hợp đa phương thức với Cross-Attention#
Kết hợp đa phương thức với cơ chế cross-attention là một kỹ thuật cải thiện khả năng của Mô hình ngôn ngữ thị giác đã được huấn luyện trước trong việc hiểu và xử lý dữ liệu thị giác. Nó hoạt động bằng cách thêm các lớp cross-attention vào mô hình, cho phép nó chú ý đến cả thông tin thị giác và văn bản cùng một lúc.
Cách thức hoạt động như sau:
- Các đối tượng chính trong hình ảnh được xác định và làm nổi bật.
- Các đối tượng được làm nổi bật được xử lý bởi một bộ mã hóa thị giác (visual encoder), chuyển đổi thông tin thị giác thành định dạng mà mô hình có thể hiểu được.
- Thông tin thị giác được chuyển đến bộ giải mã (decoder), giải mã hình ảnh bằng cách sử dụng kiến thức từ mô hình ngôn ngữ đã được huấn luyện trước.
VisualGPT là một ví dụ điển hình về mô hình sử dụng kỹ thuật này. Nó bao gồm một tính năng đặc biệt gọi là đơn vị kích hoạt tự hồi phục (SRAU - self-resurrecting activation unit), giúp mô hình tránh một vấn đề phổ biến gọi là vanishing gradients. Vanishing gradients có thể khiến các mô hình mất thông tin quan trọng trong quá trình huấn luyện, nhưng SRAU giúp duy trì hiệu suất mạnh mẽ của mô hình.

Hình 4. Kiến trúc mô hình VisualGPT.
Link to this sectionCác ứng dụng của mô hình ngôn ngữ thị giác#
Các Mô hình ngôn ngữ thị giác đang tạo ra tác động trong nhiều ngành công nghiệp. Từ việc nâng cao các nền tảng thương mại điện tử đến việc làm cho internet dễ tiếp cận hơn, các ứng dụng tiềm năng của VLM rất thú vị. Hãy cùng khám phá một số ứng dụng này.
Link to this sectionTạo mô tả sản phẩm#
Khi bạn mua sắm trực tuyến, bạn thấy các mô tả chi tiết của từng sản phẩm, nhưng việc tạo ra những mô tả đó có thể tốn nhiều thời gian. VLM hợp lý hóa quy trình này bằng cách tự động hóa việc tạo các mô tả đó. Các nhà bán lẻ trực tuyến có thể tạo trực tiếp các mô tả chi tiết và chính xác từ hình ảnh sản phẩm bằng cách sử dụng Mô hình ngôn ngữ thị giác.
Các mô tả sản phẩm chất lượng cao giúp các công cụ tìm kiếm xác định sản phẩm dựa trên các thuộc tính cụ thể được đề cập trong mô tả. Ví dụ, một mô tả chứa "tay dài" và "cổ cotton" giúp khách hàng tìm thấy "áo sơ mi cotton tay dài" dễ dàng hơn. Nó cũng giúp khách hàng tìm thấy thứ họ muốn nhanh chóng và từ đó, tăng doanh số bán hàng và sự hài lòng của khách hàng.

Hình 5. Ví dụ về mô tả sản phẩm do AI tạo ra.
Các mô hình Generative AI, như BLIP-2, là những ví dụ về các VLM tinh vi có thể dự đoán các thuộc tính sản phẩm trực tiếp từ hình ảnh. BLIP-2 sử dụng một vài thành phần để hiểu và mô tả chính xác các sản phẩm thương mại điện tử. Nó bắt đầu bằng việc xử lý và hiểu các khía cạnh thị giác của sản phẩm bằng một bộ mã hóa hình ảnh. Sau đó, một querying transformer diễn giải thông tin thị giác này trong bối cảnh các câu hỏi hoặc tác vụ cụ thể. Cuối cùng, một mô hình ngôn ngữ lớn tạo ra các mô tả sản phẩm chi tiết và chính xác.
Link to this sectionLàm cho internet dễ tiếp cận hơn#
Các Mô hình ngôn ngữ thị giác có thể làm cho internet trở nên dễ tiếp cận hơn thông qua chú thích hình ảnh, đặc biệt đối với những người khiếm thị. Theo truyền thống, người dùng cần nhập mô tả nội dung thị giác trên các trang web và phương tiện truyền thông xã hội. Ví dụ, khi bạn đăng bài trên Instagram, bạn có thể thêm văn bản thay thế cho trình đọc màn hình. Tuy nhiên, VLM có thể tự động hóa quy trình này.
Khi một VLM nhìn thấy hình ảnh một con mèo đang ngồi trên ghế sofa, nó có thể tạo ra chú thích "Một con mèo đang ngồi trên ghế sofa," giúp khung cảnh trở nên rõ ràng đối với người dùng khiếm thị. VLM sử dụng các kỹ thuật như few-shot prompting, nơi chúng học từ một vài ví dụ về cặp ảnh-chú thích, và chain-of-thought prompting, giúp chúng phân tích các cảnh phức tạp một cách logic. Các kỹ thuật này làm cho các chú thích được tạo ra mạch lạc và chi tiết hơn.

Hình 6. Sử dụng AI để tạo chú thích hình ảnh.
Về phương diện này, tính năng "Get Image Descriptions from Google" trong Chrome tự động tạo mô tả cho hình ảnh không có văn bản thay thế (alt text). Mặc dù các mô tả do AI tạo ra này có thể không chi tiết bằng mô tả do con người viết, chúng vẫn cung cấp thông tin có giá trị.
Link to this sectionLợi ích và hạn chế của các Mô hình ngôn ngữ thị giác#
Các Mô hình ngôn ngữ thị giác (VLM) mang lại nhiều lợi thế bằng cách kết hợp dữ liệu thị giác và văn bản. Một số lợi ích chính bao gồm:
- Tương tác giữa người và máy tốt hơn: Cho phép hệ thống hiểu và phản hồi cả đầu vào thị giác và văn bản, cải thiện các trợ lý ảo, chatbot và robot.
- Chẩn đoán và phân tích nâng cao: Hỗ trợ trong lĩnh vực y tế bằng cách phân tích hình ảnh và tạo mô tả, hỗ trợ các chuyên gia y tế với ý kiến thứ hai và phát hiện bất thường.
- Kể chuyện tương tác và giải trí: Tạo ra các câu chuyện hấp dẫn bằng cách kết hợp các đầu vào thị giác và văn bản để cải thiện trải nghiệm người dùng trong trò chơi và thực tế ảo.
Bất chấp những khả năng ấn tượng của chúng, các Mô hình ngôn ngữ thị giác cũng đi kèm với những hạn chế nhất định. Dưới đây là một số điều cần lưu ý khi nói đến VLM:
- Yêu cầu tính toán cao: Việc huấn luyện và triển khai VLM đòi hỏi nguồn tài nguyên tính toán đáng kể, khiến chúng trở nên tốn kém và khó tiếp cận hơn.
- Sự phụ thuộc vào dữ liệu và thiên kiến: VLM có thể tạo ra kết quả có thiên kiến nếu được huấn luyện trên các tập dữ liệu không đa dạng hoặc có thiên kiến, điều này có thể duy trì các định kiến và thông tin sai lệch.
- Khả năng hiểu ngữ cảnh hạn chế: VLM có thể gặp khó khăn trong việc hiểu bức tranh lớn hơn hoặc ngữ cảnh và tạo ra các kết quả quá đơn giản hoặc không chính xác.
Link to this sectionCác điểm chính cần lưu ý#
Các Mô hình ngôn ngữ thị giác có tiềm năng đáng kinh ngạc trong nhiều lĩnh vực, chẳng hạn như thương mại điện tử và chăm sóc sức khỏe. Bằng cách kết hợp dữ liệu thị giác và văn bản, chúng có thể thúc đẩy đổi mới và chuyển đổi các ngành công nghiệp. Tuy nhiên, việc phát triển các công nghệ này một cách có trách nhiệm và đạo đức là điều cần thiết để đảm bảo chúng được sử dụng công bằng. Khi VLM tiếp tục phát triển, chúng sẽ cải thiện các tác vụ như tìm kiếm dựa trên hình ảnh và các công nghệ hỗ trợ.
Để tiếp tục tìm hiểu về AI, hãy kết nối với cộng đồng của chúng tôi! Khám phá kho lưu trữ GitHub của chúng tôi để xem cách chúng tôi đang sử dụng AI để tạo ra các giải pháp sáng tạo trong các ngành công nghiệp như sản xuất và chăm sóc sức khỏe. 🚀






