ヨロビジョン深圳
深セン
今すぐ参加

GoogleのPaliGemma 2:高度なVLMモデルへの洞察

Abirami Vina

4分で読めます

2024年12月6日

Googleの新しいビジョン言語モデルPaliGemma 2を詳しく見ていきます。これらのモデルは、画像とテキストの両方を理解し分析するのに役立ちます。

2024年12月5日、Googleは最新バージョンの最先端ビジョン言語モデル(VLM)であるPaliGemma 2を発表しました。PaliGemma 2は、キャプションの生成、視覚的な質問への回答、ビジュアル内のオブジェクトの検出など、画像とテキストを組み合わせたタスクを処理するように設計されています。 

多言語キャプション作成と物体認識ですでに強力なツールであったオリジナルのPaliGemmaを基盤として、PaliGemma 2ではいくつかの重要な改善が加えられています。これには、モデルサイズの拡大、高解像度画像のサポート、および複雑な視覚タスクにおけるパフォーマンスの向上が含まれます。これらのアップグレードにより、幅広い用途でさらに柔軟かつ効果的に使用できます。

この記事では、PaliGemma 2について、その仕組み、主な機能、そしてその強みを発揮するアプリケーションについて詳しく見ていきます。それでは始めましょう!

Gemma 2からPaliGemma 2まで

PaliGemma 2は、SigLIP vision encoderとGemma 2 language modelという2つの主要なテクノロジーを基盤として構築されています。SigLIPエンコーダーは、画像や動画などの視覚データを処理し、モデルが分析できる特徴に分解します。一方、Gemma 2はテキストを処理し、モデルが多言語を理解し、生成できるようにします。これらが連携してVLM(Vision Language Model)を形成し、視覚情報とテキスト情報をシームレスに解釈し、接続するように設計されています。

PaliGemma 2が大きく前進した理由は、そのスケーラビリティと汎用性です。オリジナルのバージョンとは異なり、PaliGemma 2には、30億(3B)、100億(10B)、280億(28B)のパラメータの3つのサイズがあります。これらのパラメータは、モデルの内部設定のようなもので、モデルがデータを効果的に学習および処理するのに役立ちます。また、さまざまな画像解像度(たとえば、迅速なタスクには224 x 224ピクセル、詳細な分析には896 x 896ピクセル)をサポートしているため、さまざまなアプリケーションに適応できます。

図1. PaliGemma 2の概要。

Gemma 2の高度な言語機能とSigLIPの画像処理を統合すると、PaliGemma 2が大幅にインテリジェントになります。次のようなタスクを処理できます。

  • 画像または動画のキャプション作成 モデルは、ビジュアルの詳細なテキスト記述を生成できるため、キャプションの自動作成に役立ちます。
  • Visual question answering: PaliGemma 2は、画像に基づいて質問に答えることができます。たとえば、シーン内のオブジェクト、人物、またはアクションを識別するなどです。
  • 物体認識: 画像内の物体を識別してラベル付けします。たとえば、写真の中の猫、テーブル、または車を区別するなどです。

PaliGemma 2は、画像とテキストを別々に処理するだけでなく、意味のある方法でそれらを統合します。例えば、「猫がテーブルの上に座っている」というシーンの関係性を理解したり、有名なランドマークを認識するなど、コンテキストを追加しながらオブジェクトを識別したりできます。 

GoogleのPaliGemma 2 VLMモデルの仕組み

次に、以下の画像に示すグラフを使用して、PaliGemma 2が視覚データとテキストデータをどのように処理するかをより深く理解するための例を説明します。このグラフをアップロードして、モデルに「このグラフは何を表していますか?」と尋ねるとします。

Fig 2. PaliGemma 2の能力の例。

プロセスは、PaliGemma 2のSigLIPビジョンエンコーダーを使用して画像を分析し、主要な特徴を抽出することから始まります。グラフの場合、これには軸、データポイント、ラベルなどの要素の識別が含まれます。エンコーダーは、広範なパターンと細かい詳細の両方をキャプチャするようにトレーニングされています。また、光学文字認識(OCR)を使用して、画像に埋め込まれたテキストを検出して処理します。これらの視覚的特徴はトークンに変換されます。これは、モデルが処理できる数値表現です。これらのトークンは、線形射影レイヤーを使用して調整されます。これは、テキストデータとシームレスに組み合わせることができるようにするための手法です。

同時に、Gemma 2言語モデルは、付属のクエリを処理して、その意味と意図を判断します。クエリからのテキストはトークンに変換され、これらはSigLIPからの視覚トークンと組み合わされて、マルチモーダル表現(視覚データとテキストデータをリンクする統一された形式)が作成されます。 

この統合された表現を用いて、PaliGemma 2は自己回帰復号を通じて段階的に応答を生成します。これは、モデルがすでに処理したコンテキストに基づいて、一度に答えの一部を予測する手法です。 

PaliGemma 2の主な機能

その仕組みを理解したところで、PaliGemma 2を信頼できるビジョン言語モデルにする主要な機能を見ていきましょう。

  • 柔軟なファインチューニング: 特定のデータセットやタスクに容易に適応し、画像キャプション、空間推論、医療画像処理などのアプリケーションで優れた性能を発揮します。
  • 多様な学習データ: WebLIやOpenImagesのようなデータセットで学習されており、強力な物体認識能力と多言語出力機能を提供します。
  • OCR統合: 画像からテキストを抽出して解釈する光学文字認識(OCR)が含まれており、ドキュメント分析やその他のテキストベースのタスクに最適です。
  • 多言語出力:グローバルアプリケーションに最適な、多言語でのキャプションと応答を生成します。
  • ツールとの統合:Hugging Face Transformers、PyTorch、Kerasなどのフレームワークと互換性があり、簡単なデプロイと実験が可能です。

PaliGemma 2とPaliGemmaの比較:何が改善されたか?

PaliGemmaの最初のバージョンのアーキテクチャを見てみると、PaliGemma 2の機能強化がよくわかります。最も注目すべき変更点の1つは、元のGemma言語モデルがGemma 2に置き換えられたことであり、パフォーマンスと効率の両方が大幅に向上しています。 

9Bと27Bのパラメータサイズで利用可能なGemma 2は、クラス最高の精度と速度を実現しつつ、導入コストを削減するように設計されました。これは、強力なGPUから、よりアクセスしやすい構成まで、さまざまなハードウェア設定で推論効率を最適化するために再設計されたアーキテクチャによって実現されています。

Fig 3. PaliGemma 2の最初のバージョンを振り返って。

その結果、PaliGemma 2は非常に正確なモデルとなっています。PaliGemma 2の10Bバージョンは、元のモデルの34.3と比較して、より低い非包含文(NES)スコア20.3を達成しており、出力のエラーが少ないことを意味します。これらの進歩により、PaliGemma 2は、詳細なキャプション作成から視覚的な質問応答まで、よりスケーラブルで正確になり、より幅広いアプリケーションに適応できるようになります。

PaliGemma 2の応用:VLMモデルの現実世界での利用

PaliGemma 2は、視覚と言語の理解をシームレスに組み合わせることで、業界を再定義する可能性を秘めています。例えば、アクセシビリティに関して言えば、オブジェクト、シーン、空間関係の詳細な説明を生成し、視覚障碍者の方々に重要な支援を提供できます。この機能により、ユーザーは自分の環境をより良く理解し、日常のタスクにおいてより自立できるようになります。 

Fig 4. PaliGemma 2は、世界をよりアクセスしやすい場所にする可能性があります。

アクセシビリティに加えて、PaliGemma 2は、次のようなさまざまな業界に影響を与えています。

  • Eコマース: 画像内のアイテムを分析および記述することにより、製品のカテゴリ分けを強化し、在庫管理を簡素化し、ユーザーの検索エクスペリエンスを向上させます。
  • ヘルスケア: X線やMRIなどの医療画像と臨床記録を解釈することにより、医療専門家をサポートし、より正確で情報に基づいた診断を提供します。
  • 教育: PaliGemma 2は、画像のキャプションを生成し、コンテキスト情報を提供することにより、教育者が記述的でアクセス可能な学習教材を作成するのに役立ちます。
  • コンテンツ作成: マルチメディアコンテンツのキャプションや視覚的な説明を自動生成し、クリエイターの時間を節約します。

自分で試す:PaliGemma 2

PaliGemma 2を試すには、まずHugging Faceのインタラクティブなデモから始めることができます。これにより、画像キャプションや視覚的な質問応答などのタスクでその機能を探索できます。画像をアップロードして、モデルに質問したり、シーンの説明をリクエストしたりするだけです。

図5. PaliGemma 2のデモ(出典:huggingface)。

さらに詳しく知りたい場合は、こちらで実際に体験できます。

  • 学習済みモデル: Hugging FaceやKaggleなどのプラットフォームから、学習済みモデルとコードにアクセスできます。これらのリソースは、モデルの操作を開始するために必要なすべてを提供します。
  • ノートブック: PaliGemma 2に慣れるための包括的なドキュメントとサンプルノートブックがあります。推論の例から始めて、特定のタスクのために独自のデータセットでモデルを微調整することを試すことができます。
  • 統合: PaliGemma 2は、Hugging Face Transformers、Keras、PyTorch、JAX、Gemma.cppなどの広く使用されているフレームワークと互換性があり、既存のワークフローに簡単に統合できます。

GoogleのPaliGemma 2の利点と欠点

PaliGemma 2の始め方を理解したところで、これらのモデルを使用する際に留意すべき主な強みと弱みを詳しく見ていきましょう。 

PaliGemma 2がビジョン・言語モデルとして際立っている理由を以下に示します。

  • 効率の向上: Gemma 2の最適化されたアーキテクチャを活用することで、PaliGemma 2は高いパフォーマンスを発揮しながら、導入コストを最小限に抑えます。
  • 強化された安全機能: PaliGemma 2は、バイアスを減らすための事前学習データの堅牢なフィルタリングや、安全性のベンチマークに対する厳格な評価など、トレーニングプロセスに大幅な安全性の改善が含まれています。
  • より小さな構成での低遅延: 3Bモデルは、より高速な推論時間を提供し、eコマースの製品レコメンデーションやライブサポートシステムなど、速度が重要なユースケースに適しています。

一方、PaliGemma 2が直面する可能性のある制限事項を以下に示します。

  • レイテンシ: 強力ではあるものの、大規模なモデルは、リアルタイムのインタラクティブAIシステムなど、即時応答を必要とするタスクにデプロイする場合、レイテンシの問題に直面する可能性があります。
  • 大規模データセットへの依存性: PaliGemma 2の性能は、トレーニングデータセットの品質と多様性に密接に関連しており、トレーニングデータに含まれていない、十分に表現されていないドメインや言語では、その有効性が制限される可能性があります。
  • 高いリソース要件: 最適化にもかかわらず、10Bおよび28Bパラメータバージョンでは、かなりの計算能力が必要となるため、リソースが限られている中小規模の組織にとってはアクセスしにくくなります。

主なポイント

PaliGemma 2は、視覚言語モデリングにおける目覚ましい進歩であり、スケーラビリティ、ファインチューニングの柔軟性、および精度が向上しています。アクセシビリティソリューションやeコマースから、ヘルスケア診断や教育まで、幅広いアプリケーションにとって価値のあるツールとなります。 

計算要件や高品質のデータへの依存など、制限はありますが、その強みにより、視覚データとテキストデータを統合する複雑なタスクに取り組むための実用的な選択肢となります。PaliGemma 2は、研究者や開発者がマルチモーダルアプリケーションにおけるAIの可能性を探求し、拡大するための強固な基盤を提供できます。

GitHubリポジトリコミュニティをチェックして、AIに関する会話に参加しましょう。農業ヘルスケアでAIがどのように進歩しているかをご覧ください!🚀

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました