Google PaliGemma 2: Thông tin chi tiết về các model VLM tiên tiến
Hãy cùng chúng tôi xem xét kỹ hơn các model ngôn ngữ thị giác mới của Google: PaliGemma 2. Các model này có thể hỗ trợ hiểu và phân tích cả hình ảnh và văn bản.

Vào ngày 5 tháng 12 năm 2024, Google đã giới thiệu PaliGemma 2, phiên bản mới nhất của vision-language model (VLM) tiên tiến của họ. PaliGemma 2 được thiết kế để xử lý các tác vụ kết hợp hình ảnh và văn bản, chẳng hạn như tạo chú thích, trả lời câu hỏi về hình ảnh và phát hiện vật thể trong hình ảnh.
Dựa trên PaliGemma gốc vốn đã là một công cụ mạnh mẽ cho việc tạo chú thích đa ngôn ngữ và nhận diện vật thể, PaliGemma 2 mang đến một số cải tiến quan trọng. Những cải tiến này bao gồm kích thước model lớn hơn, hỗ trợ hình ảnh có độ phân giải cao hơn và hiệu suất tốt hơn trong các tác vụ hình ảnh phức tạp. Các bản nâng cấp này làm cho nó trở nên linh hoạt và hiệu quả hơn đối với nhiều mục đích sử dụng khác nhau.
Trong bài viết này, chúng ta sẽ xem xét kỹ hơn về PaliGemma 2, bao gồm cách hoạt động, các tính năng chính và những ứng dụng mà nó phát huy thế mạnh. Hãy cùng bắt đầu!
Link to this sectionTừ Gemma 2 đến PaliGemma 2#
PaliGemma 2 được xây dựng dựa trên hai công nghệ then chốt: bộ mã hóa thị giác SigLIP và model ngôn ngữ Gemma 2. Bộ mã hóa SigLIP xử lý dữ liệu hình ảnh, như hình ảnh hoặc video, và chia nhỏ chúng thành các đặc trưng mà model có thể phân tích. Trong khi đó, Gemma 2 xử lý văn bản, cho phép model hiểu và tạo ra ngôn ngữ đa quốc gia. Cùng nhau, chúng tạo thành một VLM được thiết kế để giải thích và kết nối thông tin hình ảnh và văn bản một cách liền mạch.
Điều khiến PaliGemma 2 trở thành một bước tiến lớn là khả năng mở rộng và tính linh hoạt. Khác với phiên bản gốc, PaliGemma 2 có ba kích thước - 3 tỷ (3B), 10 tỷ (10B) và 28 tỷ (28B) tham số. Những tham số này giống như các thiết lập bên trong của model, giúp nó học hỏi và xử lý dữ liệu hiệu quả. Nó cũng hỗ trợ các độ phân giải hình ảnh khác nhau (ví dụ: 224 x 224 pixel cho các tác vụ nhanh và 896 x 896 cho phân tích chi tiết), giúp nó có khả năng thích ứng với nhiều ứng dụng khác nhau.

Hình 1. Tổng quan về PaliGemma 2.
Việc tích hợp các khả năng ngôn ngữ tiên tiến của Gemma 2 với quá trình xử lý hình ảnh của SigLIP giúp PaliGemma 2 thông minh hơn đáng kể. Nó có thể xử lý các tác vụ như:
- Tạo chú thích hình ảnh hoặc video: Model có thể tạo các mô tả văn bản chi tiết về hình ảnh, giúp ích cho việc tự động tạo chú thích.
- Trả lời câu hỏi về hình ảnh: PaliGemma 2 có thể trả lời các câu hỏi dựa trên hình ảnh, chẳng hạn như xác định vật thể, con người hoặc các hành động trong một cảnh.
- Nhận diện vật thể: Nó xác định và dán nhãn các vật thể trong một hình ảnh, chẳng hạn như phân biệt giữa một con mèo, một cái bàn hoặc một chiếc ô tô trong một bức ảnh.
PaliGemma 2 vượt xa việc xử lý hình ảnh và văn bản một cách riêng biệt - nó kết hợp chúng lại với nhau theo những cách có ý nghĩa. Ví dụ, nó có thể hiểu được các mối quan hệ trong một cảnh, như nhận ra rằng "Con mèo đang ngồi trên bàn," hoặc xác định vật thể trong khi thêm ngữ cảnh, như nhận diện một địa danh nổi tiếng.
Link to this sectionCách thức hoạt động của các model VLM PaliGemma 2 của Google#
Tiếp theo, chúng ta sẽ đi qua một ví dụ sử dụng biểu đồ trong hình ảnh dưới đây để hiểu rõ hơn về cách PaliGemma 2 xử lý dữ liệu hình ảnh và văn bản. Giả sử bạn tải lên biểu đồ này và hỏi model: "Biểu đồ này đại diện cho cái gì?"

Hình 2. Ví dụ về khả năng của PaliGemma 2.
Quy trình bắt đầu với bộ mã hóa thị giác SigLIP của PaliGemma 2 để phân tích hình ảnh và trích xuất các đặc trưng chính. Đối với một biểu đồ, quá trình này bao gồm xác định các yếu tố như trục, điểm dữ liệu và nhãn. Bộ mã hóa được huấn luyện để nắm bắt cả các mẫu hình rộng lớn và các chi tiết tinh vi. Nó cũng sử dụng nhận dạng ký tự quang học (OCR) để phát hiện và xử lý bất kỳ văn bản nào được nhúng trong hình ảnh. Các đặc trưng hình ảnh này được chuyển đổi thành các token, vốn là các biểu diễn số mà model có thể xử lý. Các token này sau đó được điều chỉnh bằng cách sử dụng lớp dự báo tuyến tính, một kỹ thuật đảm bảo chúng có thể được kết hợp liền mạch với dữ liệu văn bản.
Đồng thời, model ngôn ngữ Gemma 2 xử lý truy vấn kèm theo để xác định ý nghĩa và mục đích của nó. Văn bản từ truy vấn được chuyển đổi thành các token, và các token này được kết hợp với các token hình ảnh từ SigLIP để tạo ra một biểu diễn đa phương thức, một định dạng thống nhất liên kết dữ liệu hình ảnh và văn bản.
Sử dụng biểu diễn tích hợp này, PaliGemma 2 tạo ra phản hồi từng bước thông qua giải mã tự hồi quy (autoregressive decoding), một phương pháp mà model dự đoán từng phần của câu trả lời dựa trên ngữ cảnh mà nó đã xử lý.
Link to this sectionCác khả năng chính của PaliGemma 2#
Sau khi đã hiểu cách hoạt động, hãy cùng khám phá các tính năng chính khiến PaliGemma 2 trở thành một model thị giác-ngôn ngữ đáng tin cậy:
- Linh hoạt trong fine-tuning: Dễ dàng thích nghi với các tập dữ liệu và tác vụ cụ thể, hoạt động tốt trong các ứng dụng như chú thích hình ảnh, suy luận không gian và hình ảnh y tế.
- Dữ liệu huấn luyện đa dạng: Được huấn luyện trên các tập dữ liệu như WebLI và OpenImages, mang lại khả năng nhận diện vật thể mạnh mẽ và khả năng xuất văn bản đa ngôn ngữ.
- Tích hợp OCR: Bao gồm nhận dạng ký tự quang học để trích xuất và diễn giải văn bản từ hình ảnh, khiến nó trở nên lý tưởng cho việc phân tích tài liệu và các tác vụ dựa trên văn bản khác.
- Đầu ra đa ngôn ngữ: Tạo chú thích và phản hồi bằng nhiều ngôn ngữ, lý tưởng cho các ứng dụng toàn cầu.
- Tích hợp với các công cụ: Nó tương thích với các framework như Hugging Face Transformers, PyTorch và Keras, cho phép triển khai và thử nghiệm dễ dàng.
Link to this sectionSo sánh PaliGemma 2 và PaliGemma: Điều gì đã được cải thiện?#
Nhìn vào kiến trúc của phiên bản PaliGemma đầu tiên là một cách tốt để thấy các cải tiến của PaliGemma 2. Một trong những thay đổi đáng chú ý nhất là việc thay thế model ngôn ngữ Gemma gốc bằng Gemma 2, mang lại những cải tiến đáng kể về cả hiệu suất và hiệu quả.
Gemma 2, có sẵn ở các kích thước tham số 9B và 27B, được thiết kế để mang lại độ chính xác và tốc độ dẫn đầu trong phân khúc trong khi giảm chi phí triển khai. Nó đạt được điều này thông qua kiến trúc được thiết kế lại, tối ưu hóa cho hiệu quả suy luận trên nhiều cấu hình phần cứng khác nhau, từ các GPU mạnh mẽ cho đến các cấu hình dễ tiếp cận hơn.

Hình 3. Nhìn lại phiên bản đầu tiên của PaliGemma 2.
Kết quả là, PaliGemma 2 là một model có độ chính xác cao. Phiên bản 10B của PaliGemma 2 đạt điểm Non-Entailment Sentence (NES) thấp hơn là 20.3, so với 34.3 của model gốc, nghĩa là ít sai sót thực tế hơn trong kết quả đầu ra. Những tiến bộ này giúp PaliGemma 2 có khả năng mở rộng hơn, chính xác hơn và thích ứng với nhiều ứng dụng hơn, từ tạo chú thích chi tiết đến trả lời câu hỏi về hình ảnh.
Link to this sectionCác ứng dụng của PaliGemma 2: Cách sử dụng thực tế cho các model VLM#
PaliGemma 2 có tiềm năng định hình lại các ngành công nghiệp bằng cách kết hợp liền mạch khả năng hiểu hình ảnh và ngôn ngữ. Ví dụ, liên quan đến khả năng tiếp cận, nó có thể tạo ra các mô tả chi tiết về vật thể, cảnh vật và mối quan hệ không gian, cung cấp sự hỗ trợ quan trọng cho những người khiếm thị. Khả năng này giúp người dùng hiểu môi trường xung quanh tốt hơn, mang lại sự độc lập cao hơn trong các tác vụ hàng ngày.

Hình 4. PaliGemma 2 có thể làm cho thế giới trở nên dễ tiếp cận hơn.
Ngoài khả năng tiếp cận, PaliGemma 2 đang tạo ra tác động trên nhiều ngành công nghiệp, bao gồm:
- Thương mại điện tử: Model cải thiện việc phân loại sản phẩm bằng cách phân tích và mô tả các mặt hàng trong hình ảnh, giúp đơn giản hóa quản lý kho hàng và cải thiện trải nghiệm tìm kiếm cho người dùng.
- Y tế: Nó hỗ trợ các chuyên gia y tế bằng cách diễn giải hình ảnh y tế, như X-quang và MRI, cùng với các ghi chú lâm sàng để đưa ra chẩn đoán chính xác và có cơ sở hơn.
- Giáo dục: PaliGemma 2 giúp các nhà giáo dục tạo ra các tài liệu học tập có mô tả và dễ tiếp cận bằng cách tạo chú thích và cung cấp thông tin ngữ cảnh cho hình ảnh.
- Sáng tạo nội dung: Model tự động hóa quá trình tạo chú thích và mô tả hình ảnh cho nội dung đa phương tiện, tiết kiệm thời gian cho người sáng tạo.
Link to this sectionTự mình trải nghiệm: PaliGemma 2#
Để dùng thử PaliGemma 2, bạn có thể bắt đầu với bản demo tương tác của Hugging Face. Nó cho phép bạn khám phá các khả năng của model trong các tác vụ như chú thích hình ảnh và trả lời câu hỏi về hình ảnh. Chỉ cần tải lên một hình ảnh và đặt câu hỏi cho model hoặc yêu cầu mô tả về cảnh đó.

Hình 5. Một bản demo của PaliGemma 2 (Nguồn: Hugging Face).
Nếu bạn muốn tìm hiểu sâu hơn, đây là cách bạn có thể bắt đầu thực hành:
- Model được huấn luyện sẵn: Bạn có thể truy cập các model đã được huấn luyện sẵn và mã nguồn từ các nền tảng như Hugging Face và Kaggle. Những tài nguyên này cung cấp mọi thứ bạn cần để bắt đầu làm việc với model.
- Notebooks: Có tài liệu toàn diện và các ví dụ notebooks để bạn làm quen với PaliGemma 2. Bạn có thể bắt đầu với các ví dụ về suy luận và thử nghiệm với việc fine-tuning model trên tập dữ liệu của riêng mình cho các tác vụ cụ thể.
- Tích hợp: PaliGemma 2 tương thích với các framework được sử dụng rộng rãi như Hugging Face Transformers, Keras, PyTorch, JAX và Gemma.cpp, cho phép bạn tích hợp nó vào quy trình làm việc hiện tại của mình một cách dễ dàng.
Link to this sectionƯu và nhược điểm của PaliGemma 2 của Google#
Sau khi đã hiểu cách bắt đầu với PaliGemma 2, hãy cùng xem xét kỹ hơn các điểm mạnh và hạn chế chính cần lưu ý khi sử dụng các model này.
Dưới đây là những điều khiến PaliGemma 2 nổi bật như một model thị giác-ngôn ngữ:
- Tăng hiệu suất: Tận dụng kiến trúc được tối ưu hóa của Gemma 2, PaliGemma 2 mang lại hiệu suất cao trong khi giảm thiểu chi phí triển khai.
- Các tính năng an toàn nâng cao: PaliGemma 2 bao gồm những cải tiến đáng kể về an toàn trong quy trình huấn luyện, chẳng hạn như lọc dữ liệu tiền huấn luyện mạnh mẽ để giảm thiểu sai lệch và đánh giá nghiêm ngặt dựa trên các tiêu chuẩn an toàn.
- Độ trễ thấp cho các cấu hình nhỏ hơn: Model 3B cung cấp thời gian suy luận nhanh hơn, làm cho nó phù hợp với các trường hợp sử dụng mà tốc độ là yếu tố then chốt, chẳng hạn như gợi ý sản phẩm thương mại điện tử hoặc các hệ thống hỗ trợ trực tiếp.
Trong khi đó, đây là một số lĩnh vực mà PaliGemma 2 có thể gặp phải những hạn chế:
- Độ trễ: Mặc dù mạnh mẽ, các model lớn hơn có thể gặp vấn đề về độ trễ, đặc biệt là khi được triển khai cho các tác vụ yêu cầu phản hồi ngay lập tức, chẳng hạn như các hệ thống AI tương tác theo thời gian thực.
- Sự phụ thuộc vào các tập dữ liệu lớn: Hiệu suất của PaliGemma 2 gắn liền chặt chẽ với chất lượng và tính đa dạng của các tập dữ liệu huấn luyện, điều này có thể hạn chế hiệu quả của nó trong các lĩnh vực ít được đại diện hoặc các ngôn ngữ không có trong dữ liệu huấn luyện.
- Yêu cầu tài nguyên cao: Mặc dù đã được tối ưu hóa, các phiên bản tham số 10B và 28B đòi hỏi sức mạnh tính toán đáng kể, khiến chúng trở nên ít khả thi hơn đối với các tổ chức nhỏ với nguồn lực hạn chế.
Link to this sectionCác điểm chính cần lưu ý#
PaliGemma 2 là một bước tiến thú vị trong việc tạo model thị giác-ngôn ngữ, mang lại khả năng mở rộng được cải thiện, sự linh hoạt trong fine-tuning và độ chính xác cao. Nó có thể đóng vai trò là một công cụ có giá trị cho các ứng dụng từ giải pháp tiếp cận và thương mại điện tử đến chẩn đoán y tế và giáo dục.
Mặc dù nó có những hạn chế, chẳng hạn như các yêu cầu tính toán và sự phụ thuộc vào dữ liệu chất lượng cao, các điểm mạnh của nó khiến nó trở thành một lựa chọn thiết thực để giải quyết các tác vụ phức tạp kết hợp dữ liệu hình ảnh và văn bản. PaliGemma 2 có thể cung cấp một nền tảng vững chắc cho các nhà nghiên cứu và nhà phát triển khám phá và mở rộng tiềm năng của AI trong các ứng dụng đa phương thức.
Hãy trở thành một phần của cuộc trò chuyện về AI bằng cách kiểm tra GitHub repository và cộng đồng của chúng tôi. Tìm hiểu về cách AI đang tạo ra những bước tiến trong nông nghiệp và y tế! 🚀






