ヨロビジョン深圳
深セン
今すぐ参加

Florence-2:マイクロソフトの最新のビジョン・言語モデル

Abirami Vina

6 min read

2024年7月26日

Florence-2をご紹介します。Microsoftのビジュアル言語モデルで、オブジェクト検出、セグメンテーション、ゼロショットパフォーマンスが効率的に向上しています。

2024年6月、マイクロソフトは、Florence-2を発表しました。これは、物体検出セグメンテーション、画像キャプション、グラウンディングなど、幅広いタスクを処理するように設計されたマルチモーダルビジュアル言語モデル(VLM)です。Florence-2は、事前の特定のトレーニングなしでタスクを実行できるゼロショット性能の新たなベンチマークを確立し、他の最先端のVision-Languageモデルよりもモデルサイズが小さくなっています。

単なる別のモデルではありません。Florence-2の汎用性とパフォーマンスの向上は、精度を向上させ、大規模なトレーニングの必要性を減らすことで、さまざまな業界に大きな影響を与える可能性があります。この記事では、Florence-2の革新的な機能を探り、他のVLMとのパフォーマンスを比較し、その潜在的なアプリケーションについて説明します。

Florence-2とは?

Florence-2は、単一の統合フレームワーク内で多様なタスクを処理できます。このモデルの優れた能力は、FLD-5Bと呼ばれる大規模なトレーニングデータセットに大きく起因しています。FLD-5Bには、1億2,600万枚の画像にわたる54億のアノテーションが含まれています。この包括的なデータセットは、Florence-2が高精度かつ効率的に広範なビジョンタスクを処理するために必要な能力を備えるように特別に作成されました。 

Florence-2がサポートするタスクについて詳しく見ていきましょう。

  • 物体検出: 画像内の物体を高精度で識別し、位置を特定できます。
  • セグメンテーション: このタスクでは、画像を意味のあるセグメントに分割して、分析と解釈を容易にします。
  • 画像キャプション: Florence-2は、コンテキストと詳細を提供する画像の記述的なキャプションを生成できます。
  • Visual Grounding: モデルは、キャプション内の特定のフレーズや単語を、画像内の対応する領域に関連付けることができます。
  • ゼロショット性能: 特定のトレーニングなしでタスクを実行できます。
__wf_reserved_inherit
図1. Florence-2の学習方法について。

このモデルは、テキストベースと領域ベースの両方のタスクをサポートしています。画像の特定の領域を含むタスクのために、特別な場所トークンがモデルの語彙に追加されます。これらのトークンは、オブジェクトの周りの長方形(ボックス表現)、四辺形(クワッドボックス表現)、および多辺形(ポリゴン表現)など、さまざまな形状をモデルが理解するのに役立ちます。  このモデルは、クロスエントロピー損失と呼ばれる方法を使用してトレーニングされます。これは、予測を正解と比較し、それに応じて内部パラメータを調整することで、モデルが学習するのに役立ちます。

FLD-5Bデータセットの作成

FLD-5B データセットには、テキストによる説明、領域とテキストのペア、テキスト、フレーズ、領域の組み合わせなど、さまざまな種類のアノテーションが含まれています。これは、データ収集とアノテーションという 2 段階のプロセスを経て作成されました。画像は、ImageNet-22k、Object 365、Open Images、Conceptual Captions、LAION などの一般的なデータセットから取得されました。FLD-5B データセットのアノテーションは、ほとんどが合成データであり、手動でラベル付けされたものではなく、自動的に生成されたものです。 

__wf_reserved_inherit
Fig 2. FLD-5Bデータセットの作成。

当初、オブジェクト検出やセグメンテーションなど、特定のタスクに熟練した専門モデルがこれらのアノテーションを作成しました。次に、アノテーションが詳細かつ正確であることを確認するために、フィルタリングとエンハンスメントのプロセスが使用されました。ノイズを除去した後、データセットは反復的な改良を受け、Florence-2の出力を使用してアノテーションを継続的に更新および改善しました。 

Florence-2のモデルアーキテクチャの理解

Florence-2のモデルアーキテクチャは、sequence-to-sequence学習アプローチに従っています。これは、モデルが入力シーケンス(テキストプロンプト付きの画像など)を処理し、出力シーケンス(説明やラベルなど)を段階的に生成することを意味します。sequence-to-sequenceフレームワークでは、各タスクは翻訳問題として扱われます。モデルは入力画像とタスク固有のプロンプトを受け取り、対応する出力を生成します。

__wf_reserved_inherit
図3. Florence-2のVision-Languageモデルアーキテクチャ

モデルアーキテクチャの中核は、マルチモーダルエンコーダーデコーダートランスフォーマーであり、イメージエンコーダーとマルチモーダルエンコーダーデコーダーを組み合わせたものです。DaViT(Data-efficient Vision Transformer)と呼ばれるイメージエンコーダーは、入力画像を視覚的なトークン埋め込み(空間情報(物の場所)とセマンティック情報(物の内容)の両方をキャプチャする画像のコンパクトな表現)に変換することによって処理します。これらの視覚的なトークンは、テキスト埋め込み(テキストの表現)と組み合わされ、モデルがテキストデータと視覚データをシームレスに結合できるようになります。

Florence-2と他のVLMの比較

Florence-2は、その優れたゼロショット能力により、他の視覚言語モデルとは一線を画しています。さまざまなタスクに適応するために広範なファインチューニングに依存するPaliGemmaのようなモデルとは異なり、Florence-2はすぐに優れた性能を発揮します。また、Florence-2は、GPT-4VやFlamingoのような、より多くのパラメータを持つことが多いものの、必ずしもFlorence-2の性能に匹敵しない大規模モデルとも競合できます。例えば、Florence-2は、Kosmos-2の2倍以上のパラメータを持っているにもかかわらず、Kosmos-2よりも優れたゼロショットの結果を達成しています。

ベンチマークテストにおいて、Florence-2はCOCOキャプションや参照表現理解などのタスクで目覚ましい性能を示しました。COCOデータセットにおける物体検出およびセグメンテーションタスクでは、PolyFormerやUNINEXTなどのモデルを上回る性能を発揮しています。性能とリソース効率の両方が重要な現実世界のアプリケーションにとって、非常に競争力の高い選択肢となります。

Florence-2の応用

Florence-2は、エンターテインメントアクセシビリティ教育など、さまざまな業界で活用できます。理解を深めるために、いくつかの例を見ていきましょう。

画像キャプションの応用

ストリーミングプラットフォームで何を見るか決めようとしているとき、選択の参考として映画のあらすじを読むことがあるでしょう。プラットフォームが映画ポスターの詳細な説明も提供できるとしたらどうでしょうか?Florence-2は、画像の説明文を生成する画像キャプションを通じて、それを可能にします。Florence-2は、映画ポスターの詳細な説明を生成し、視覚障碍のあるユーザーにとってストリーミングプラットフォームをより包括的なものにすることができます。ポスターのキャラクター、風景、テキストなどの視覚要素を分析することで、Florence-2はポスターの内容と雰囲気を伝える詳細な説明を作成できます。下の画像は、Florence-2が提供できる説明の詳細レベルを示しています。

__wf_reserved_inherit
図4. Florence-2によって生成された画像キャプションの例。 

画像キャプションが役立つその他の例をいくつかご紹介します。

  • Eコマース:画像キャプションは、製品画像の詳細な説明を提供し、顧客が製品の機能や詳細をより明確に理解するのに役立ちます。
  • 旅行と観光:旅行ガイドやアプリでランドマークや観光スポットの詳細な説明を提供できます。
  • 教育: 画像キャプションは、教育用の画像や図にラベルを付けて説明することができ、教育と学習を支援します。
  • 不動産: 物件画像の詳細な説明を提供し、潜在的な購入者向けに機能やアメニティを強調表示できます。

料理中のVisual Groundingの利用

Florence-2は、料理体験を豊かにするためにも使用できます。たとえば、オンラインの料理本では、Florence-2を使用して、複雑なレシピ画像のパーツを視覚的にグラウンディングしてラベル付けできます。視覚的なグラウンディングは、画像の特定の部分を対応する説明テキストにリンクすることで役立ちます。各材料と手順を正確にラベル付けして説明することで、家庭料理人がレシピに従い、各コンポーネントの料理における役割を理解しやすくなります。

__wf_reserved_inherit
Fig 5. Florence-2を使用した視覚的グラウンディングの例。 

金融ドキュメント向けの領域ベースOCR

ドキュメント内の特定の領域からテキストを抽出することに焦点を当てた領域ベースの処理によるOCRは、会計などの分野で役立ちます。財務書類の指定された領域を分析して、取引の詳細、口座番号、期日などの重要な情報を自動的に抽出できます。手動によるデータ入力の必要性を減らすことで、エラーを最小限に抑え、処理時間を短縮します。金融機関は、請求書処理、領収書の照合、小切手の決済などのタスクを合理化するために使用でき、取引の迅速化と顧客サービスの向上につながります。 

__wf_reserved_inherit
Fig 6. Florence-2 を使用した領域による OCR 抽出の例。 

産業用アプリケーションにおける領域ベースのセグメンテーション

領域ベースのセグメンテーションは、画像を意味のある部分に分割して、焦点を絞った分析と詳細な検査を行うものであり、さまざまなプロセスにおける精度と効率を向上させる産業用アプリケーションを促進できます。画像内の特定の領域に焦点を当てることで、この技術は、コンポーネントと製品の詳細な検査と分析を可能にします。品質管理に関しては、亀裂やずれなど、材料の欠陥や矛盾を特定し、最高品質の製品のみが市場に出回るようにすることができます。

__wf_reserved_inherit
図7。Florence-2を使用した領域ベースのセグメンテーションの例。

また、ロボットアームを特定の部品に誘導し、部品の配置と組み立てを最適化することで、自動組立ラインを改善します。同様に、在庫管理では、商品の状態と場所を追跡および監視し、より効率的なロジスティクスとダウンタイムの削減につながります。全体として、領域ベースのセグメンテーションは精度と生産性を向上させ、産業環境でのコスト削減と製品品質の向上につながります。

主なポイント

AI モデルは、高いパフォーマンスを維持しながら、より軽量になる傾向が見られます。Florence-2 は、ビジュアル言語モデルにおいて大きな進歩を示しています。物体検出、セグメンテーション、画像キャプション、グラウンディングなど、さまざまなタスクを優れたゼロショットパフォーマンスで処理できます。Florence-2 は、小型であるにもかかわらず、効率的で多機能であり、さまざまな業界でのアプリケーションにおいて非常に役立ちます。Florence-2 のようなモデルは、より多くの可能性をもたらし、AI イノベーションの可能性を拡大しています。

AIについてさらに詳しく知りたい場合は、GitHubリポジトリをご覧いただき、コミュニティにご参加ください。ソリューションページでは、製造業農業におけるAIの応用についてご紹介しています。🚀

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました