Yolo Vision Thâm Quyến
Thâm Quyến
Tham gia ngay

Google PaliGemma 2: Thông tin chi tiết về các mô hình VLM tiên tiến

Abirami Vina

4 phút đọc

6 tháng 12, 2024

Hãy cùng chúng tôi xem xét kỹ hơn các mô hình ngôn ngữ thị giác mới của Google: PaliGemma 2. Các mô hình này có thể giúp hiểu và phân tích cả hình ảnh và văn bản.

Vào ngày 5 tháng 12 năm 2024, Google đã giới thiệu PaliGemma 2, phiên bản mới nhất của mô hình ngôn ngữ thị giác (VLM) tiên tiến của mình. PaliGemma 2 được thiết kế để xử lý các tác vụ kết hợp hình ảnh và văn bản, chẳng hạn như tạo chú thích, trả lời các câu hỏi trực quan và phát hiện các đối tượng trong hình ảnh. 

Dựa trên PaliGemma ban đầu, vốn đã là một công cụ mạnh mẽ để tạo chú thích đa ngôn ngữ và nhận dạng đối tượng, PaliGemma 2 mang đến một số cải tiến quan trọng. Chúng bao gồm kích thước mô hình lớn hơn, hỗ trợ hình ảnh có độ phân giải cao hơn và hiệu suất tốt hơn trên các tác vụ trực quan phức tạp. Những nâng cấp này làm cho nó trở nên linh hoạt và hiệu quả hơn cho nhiều mục đích sử dụng.

Trong bài viết này, chúng ta sẽ xem xét kỹ hơn PaliGemma 2, bao gồm cách nó hoạt động, các tính năng chính và các ứng dụng mà nó vượt trội. Hãy cùng bắt đầu!

Từ Gemma 2 đến PaliGemma 2

PaliGemma 2 được xây dựng trên hai công nghệ chính: bộ mã hóa thị giác SigLIP và mô hình ngôn ngữ Gemma 2. Bộ mã hóa SigLIP xử lý dữ liệu trực quan, như hình ảnh hoặc video và chia nó thành các đặc điểm mà mô hình có thể phân tích. Trong khi đó, Gemma 2 xử lý văn bản, cho phép mô hình hiểu và tạo ra ngôn ngữ đa ngôn ngữ. Cùng nhau, chúng tạo thành một VLM, được thiết kế để diễn giải và kết nối thông tin trực quan và văn bản một cách liền mạch.

Điều khiến PaliGemma 2 trở thành một bước tiến lớn là khả năng mở rộng và tính linh hoạt của nó. Không giống như phiên bản gốc, PaliGemma 2 có ba kích cỡ - 3 tỷ (3B), 10 tỷ (10B) và 28 tỷ (28B) tham số. Các tham số này giống như các cài đặt bên trong của mô hình, giúp nó học hỏi và xử lý dữ liệu một cách hiệu quả. Nó cũng hỗ trợ các độ phân giải hình ảnh khác nhau (ví dụ: 224 x 224 pixel cho các tác vụ nhanh và 896 x 896 cho phân tích chi tiết), giúp nó có thể thích ứng với nhiều ứng dụng khác nhau.

Hình 1. Tổng quan về PaliGemma 2.

Việc tích hợp các khả năng ngôn ngữ tiên tiến của Gemma 2 với khả năng xử lý hình ảnh của SigLIP giúp PaliGemma 2 trở nên thông minh hơn đáng kể. Nó có thể xử lý các tác vụ như:

  • Chú thích hình ảnh hoặc video: Mô hình có thể tạo ra các mô tả văn bản chi tiết về hình ảnh, làm cho nó hữu ích để tự động tạo chú thích.
  • Trả lời câu hỏi trực quan: PaliGemma 2 có thể trả lời các câu hỏi dựa trên hình ảnh, chẳng hạn như xác định các đối tượng, người hoặc hành động trong một cảnh.
  • Nhận dạng đối tượng: Nó xác định và gắn nhãn các đối tượng trong một hình ảnh, chẳng hạn như phân biệt giữa mèo, bàn hoặc ô tô trong một bức ảnh.

PaliGemma 2 không chỉ xử lý hình ảnh và văn bản một cách riêng biệt - nó kết hợp chúng lại với nhau theo những cách có ý nghĩa. Ví dụ: nó có thể hiểu các mối quan hệ trong một cảnh, như nhận ra rằng "Con mèo đang ngồi trên bàn" hoặc xác định các đối tượng đồng thời thêm ngữ cảnh, như nhận ra một địa danh nổi tiếng. 

Cách thức hoạt động của mô hình VLM PaliGemma 2 của Google

Tiếp theo, chúng ta sẽ xem qua một ví dụ sử dụng đồ thị hiển thị trong hình bên dưới để hiểu rõ hơn về cách PaliGemma 2 xử lý dữ liệu trực quan và văn bản. Giả sử bạn tải lên đồ thị này và hỏi mô hình, "Đồ thị này biểu thị điều gì?"

Hình 2. Một ví dụ về khả năng của PaliGemma 2.

Quy trình bắt đầu với bộ mã hóa thị giác SigLIP của PaliGemma 2 để phân tích hình ảnh và trích xuất các đặc trưng chính. Đối với một biểu đồ, điều này bao gồm việc xác định các thành phần như trục, điểm dữ liệu và nhãn. Bộ mã hóa được huấn luyện để nắm bắt cả các mẫu rộng và các chi tiết nhỏ. Nó cũng sử dụng nhận dạng ký tự quang học (OCR) để phát hiện và xử lý bất kỳ văn bản nào được nhúng trong hình ảnh. Các đặc trưng trực quan này được chuyển đổi thành các token, là các biểu diễn số mà mô hình có thể xử lý. Các token này sau đó được điều chỉnh bằng cách sử dụng một lớp chiếu tuyến tính, một kỹ thuật đảm bảo rằng chúng có thể được kết hợp liền mạch với dữ liệu văn bản.

Đồng thời, mô hình ngôn ngữ Gemma 2 xử lý truy vấn đi kèm để xác định ý nghĩa và mục đích của nó. Văn bản từ truy vấn được chuyển đổi thành mã thông báo (tokens) và chúng được kết hợp với mã thông báo trực quan từ SigLIP để tạo ra một biểu diễn đa phương thức (multimodal representation), một định dạng thống nhất liên kết dữ liệu trực quan và văn bản. 

Sử dụng biểu diễn tích hợp này, PaliGemma 2 tạo ra phản hồi từng bước thông qua giải mã tự hồi quy, một phương pháp mà mô hình dự đoán từng phần của câu trả lời tại một thời điểm dựa trên ngữ cảnh mà nó đã xử lý. 

Các khả năng chính của PaliGemma 2

Bây giờ chúng ta đã hiểu cách nó hoạt động, hãy khám phá các tính năng chính giúp PaliGemma 2 trở thành một mô hình ngôn ngữ-thị giác đáng tin cậy:

  • Tính linh hoạt trong tinh chỉnh: Dễ dàng thích ứng với các tập dữ liệu và tác vụ cụ thể, hoạt động tốt trong các ứng dụng như tạo chú thích hình ảnh, suy luận không gian và chẩn đoán hình ảnh y tế.
  • Dữ liệu huấn luyện đa dạng: Được huấn luyện trên các tập dữ liệu như WebLI và OpenImages, mang lại cho nó khả năng nhận dạng đối tượng mạnh mẽ và khả năng xuất ra đa ngôn ngữ.
  • Tích hợp OCR: Bao gồm nhận dạng ký tự quang học để trích xuất và diễn giải văn bản từ hình ảnh, làm cho nó trở nên lý tưởng cho phân tích tài liệu và các tác vụ dựa trên văn bản khác.
  • Đầu ra đa ngôn ngữ: Tạo chú thích và phản hồi bằng nhiều ngôn ngữ, lý tưởng cho các ứng dụng toàn cầu.
  • Tích hợp với các công cụ: Nó tương thích với các framework như Hugging Face Transformers, PyTorch và Keras, cho phép triển khai và thử nghiệm dễ dàng.

So sánh PaliGemma 2 và PaliGemma: Những gì đã được cải thiện?

Xem xét kiến trúc của phiên bản đầu tiên của PaliGemma là một cách tốt để thấy những cải tiến của PaliGemma 2. Một trong những thay đổi đáng chú ý nhất là việc thay thế mô hình ngôn ngữ Gemma ban đầu bằng Gemma 2, mang lại những cải tiến đáng kể về hiệu suất và hiệu quả. 

Gemma 2, có sẵn với các kích thước tham số 9B và 27B, được thiết kế để mang lại độ chính xác và tốc độ hàng đầu trong khi giảm chi phí triển khai. Nó đạt được điều này thông qua một kiến trúc được thiết kế lại, được tối ưu hóa cho hiệu quả suy luận trên nhiều thiết lập phần cứng khác nhau, từ GPU mạnh mẽ đến các cấu hình dễ tiếp cận hơn.

Hình 3. Nhìn lại phiên bản đầu tiên của PaliGemma 2.

Do đó, PaliGemma 2 là một mô hình có độ chính xác (accurate) cao. Phiên bản 10B của PaliGemma 2 đạt được điểm Câu không kéo theo (Non-Entailment Sentence - NES) thấp hơn là 20,3, so với 34,3 của mô hình ban đầu, có nghĩa là ít lỗi thực tế hơn trong kết quả đầu ra của nó. Những tiến bộ này làm cho PaliGemma 2 có khả năng mở rộng, chính xác và thích ứng hơn với nhiều ứng dụng hơn, từ chú thích chi tiết đến trả lời câu hỏi trực quan.

Các ứng dụng của PaliGemma 2: Ứng dụng thực tế cho các mô hình VLM

PaliGemma 2 có tiềm năng tái định nghĩa các ngành công nghiệp bằng cách kết hợp liền mạch khả năng hiểu biết về hình ảnh và ngôn ngữ. Ví dụ: đối với khả năng tiếp cận, nó có thể tạo ra các mô tả chi tiết về các đối tượng, cảnh và mối quan hệ không gian, cung cấp hỗ trợ quan trọng cho những người khiếm thị. Khả năng này giúp người dùng hiểu rõ hơn về môi trường của họ, mang lại sự độc lập lớn hơn khi thực hiện các công việc hàng ngày. 

Hình 4. PaliGemma 2 có thể làm cho thế giới trở nên dễ tiếp cận hơn.

Ngoài khả năng tiếp cận, PaliGemma 2 đang tạo ra tác động trên nhiều ngành công nghiệp khác nhau, bao gồm:

  • Thương mại điện tử (E-commerce): Mô hình này tăng cường khả năng phân loại sản phẩm bằng cách phân tích và mô tả các mặt hàng trong hình ảnh, giúp đơn giản hóa việc quản lý kho hàng và cải thiện trải nghiệm tìm kiếm cho người dùng.
  • Chăm sóc sức khỏe (Healthcare): Nó hỗ trợ các chuyên gia y tế bằng cách diễn giải hình ảnh y tế, chẳng hạn như X-quang và MRI, cùng với các ghi chú lâm sàng để đưa ra chẩn đoán chính xác và đầy đủ thông tin hơn.
  • Giáo dục: PaliGemma 2 giúp các nhà giáo dục tạo ra các tài liệu học tập mang tính mô tả và dễ tiếp cận bằng cách tạo chú thích và cung cấp thông tin theo ngữ cảnh cho hình ảnh.
  • Sáng tạo nội dung: Mô hình tự động hóa quá trình tạo chú thích và mô tả trực quan cho nội dung đa phương tiện, giúp người sáng tạo tiết kiệm thời gian.

Tự mình dùng thử: PaliGemma 2

Để dùng thử PaliGemma 2, bạn có thể bắt đầu với bản demo tương tác của Hugging Face. Nó cho phép bạn khám phá các khả năng của nó trong các tác vụ như tạo chú thích ảnh và trả lời câu hỏi trực quan. Chỉ cần tải lên một hình ảnh và hỏi mô hình các câu hỏi về nó hoặc yêu cầu mô tả cảnh.

Hình 5. Bản Demo của PaliGemma 2 (Nguồn: huggingface).

Nếu bạn muốn tìm hiểu sâu hơn, đây là cách bạn có thể thực hành:

  • Mô hình được huấn luyện trước: Bạn có thể truy cập các mô hình và mã được huấn luyện trước từ các nền tảng như Hugging Face và Kaggle. Các tài nguyên này cung cấp mọi thứ bạn cần để bắt đầu làm việc với mô hình.
  • Notebook: Có tài liệu toàn diện và các notebook ví dụ để bạn làm quen với PaliGemma 2. Bạn có thể bắt đầu với các ví dụ về suy luận và thử nghiệm tinh chỉnh mô hình trên bộ dữ liệu của riêng bạn cho các tác vụ cụ thể.
  • Tích hợp: PaliGemma 2 tương thích với các framework được sử dụng rộng rãi như Hugging Face Transformers, Keras, PyTorch, JAX và Gemma.cpp, cho phép bạn tích hợp nó vào quy trình làm việc hiện có của mình một cách dễ dàng.

Ưu và nhược điểm của PaliGemma 2 của Google

Sau khi hiểu cách bắt đầu với PaliGemma 2, hãy xem xét kỹ hơn các điểm mạnh và hạn chế chính của nó cần lưu ý khi sử dụng các mô hình này. 

Đây là những gì làm cho PaliGemma 2 nổi bật như một mô hình ngôn ngữ thị giác:

  • Tăng hiệu quả: Tận dụng kiến trúc được tối ưu hóa của Gemma 2, PaliGemma 2 mang lại hiệu suất cao đồng thời giảm thiểu chi phí triển khai.
  • Các tính năng an toàn được tăng cường: PaliGemma 2 bao gồm những cải tiến đáng kể về an toàn trong quá trình huấn luyện, chẳng hạn như lọc mạnh mẽ dữ liệu tiền huấn luyện để giảm thiểu sai lệch và đánh giá nghiêm ngặt dựa trên các tiêu chuẩn an toàn.
  • Độ trễ thấp cho các cấu hình nhỏ hơn: Mô hình 3B cung cấp thời gian suy luận nhanh hơn, phù hợp để sử dụng trong các trường hợp mà tốc độ là rất quan trọng, chẳng hạn như đề xuất sản phẩm thương mại điện tử hoặc hệ thống hỗ trợ trực tiếp.

Trong khi đó, đây là một số lĩnh vực mà PaliGemma 2 có thể gặp phải những hạn chế:

  • Độ trễ: Mặc dù mạnh mẽ, các mô hình lớn hơn có thể gặp phải các vấn đề về độ trễ, đặc biệt khi được triển khai cho các tác vụ yêu cầu phản hồi ngay lập tức, chẳng hạn như các hệ thống AI tương tác theo thời gian thực.
  • Sự phụ thuộc vào bộ dữ liệu lớn: Hiệu suất của PaliGemma 2 gắn liền với chất lượng và sự đa dạng của bộ dữ liệu huấn luyện, điều này có thể hạn chế hiệu quả của nó trong các lĩnh vực hoặc ngôn ngữ ít được đại diện không có trong dữ liệu huấn luyện.
  • Yêu cầu tài nguyên cao: Mặc dù đã được tối ưu hóa, các phiên bản tham số 10B và 28B vẫn yêu cầu sức mạnh tính toán đáng kể, khiến chúng ít được các tổ chức nhỏ hơn với nguồn lực hạn chế tiếp cận.

Những điều cần nhớ

PaliGemma 2 là một tiến bộ hấp dẫn trong mô hình hóa ngôn ngữ thị giác, mang lại khả năng mở rộng, tính linh hoạt trong tinh chỉnh và độ chính xác được cải thiện. Nó có thể đóng vai trò là một công cụ có giá trị cho các ứng dụng từ các giải pháp trợ năng và thương mại điện tử đến chẩn đoán chăm sóc sức khỏe và giáo dục. 

Mặc dù có những hạn chế nhất định, chẳng hạn như yêu cầu về tính toán và sự phụ thuộc vào dữ liệu chất lượng cao, nhưng những điểm mạnh của nó khiến nó trở thành một lựa chọn thiết thực để giải quyết các tác vụ phức tạp tích hợp dữ liệu trực quan và văn bản. PaliGemma 2 có thể cung cấp một nền tảng vững chắc cho các nhà nghiên cứu và nhà phát triển để khám phá và mở rộng tiềm năng của AI trong các ứng dụng đa phương thức.

Hãy tham gia vào cuộc thảo luận về AI bằng cách xem kho lưu trữ GitHubcộng đồng của chúng tôi. Tìm hiểu về những tiến bộ của AI trong nông nghiệpchăm sóc sức khỏe! 🚀

Hãy cùng nhau xây dựng tương lai
của AI!

Bắt đầu hành trình của bạn với tương lai của học máy

Bắt đầu miễn phí
Đã sao chép liên kết vào clipboard