FastVLM:アップル、新しい高速ビジョン言語モデルを発表

アビラミ・ヴィナ

4 min read

2025年8月8日

Apple、CVPR 2025でFastVLMを発表。このオープンソースのビジョン言語モデルは、FastViTHDエンコーダを搭載し、最初のトークンまでの時間を最大85倍高速化します。

CVPR 2025カンファレンスで、アップルはFastVLMと呼ばれる新しいオープンソースのAIモデルを発表した。これは画像と言語の両方を理解するように構築されており、iPhone、iPad、Macなどのアップル製デバイス上で動作する。つまり、データをクラウドに送信することなく、スマートな結果を迅速に提供できるのだ。

FastVLMが特に興味深いのは、その高速性と効率性だ。アップルはFastViTHDと呼ばれる新しいビジョン・エンコーダを開発し、メモリと消費電力を抑えながら高品質の画像を解釈できるようにした。すべての処理はデバイス上でローカルに行われるため、ユーザーのプライバシーを守りつつ、応答時間を短縮することができる。

この記事では、FastVLMがどのように機能するのか、何が特徴なのか、そしてなぜこのアップルのリリースがあなたのデバイス上の日常的なAIアプリケーションにとって重要な一歩となり得るのかを探る。

視覚言語モデル(VLM)の理解

FastVLMを特別なものにしているものに飛び込む前に、その名前にある「VLM」が何を表しているのかを説明しよう。これは視覚言語モデルのことで、視覚コンテンツを理解し、言語と結びつけるように設計されています。

VLMは視覚的理解と言語を統合し、写真の説明、スクリーンショットに関する質問への回答、文書からのテキスト抽出などのタスクを実行できるようにする。視覚言語モデルは通常、2つの部分で動作する。1つは画像を処理してデータに変換し、もう1つはそのデータを解釈して、読んだり聞いたりできる応答を生成する。

このようなAIの革新は、気づかないうちにすでに利用されているかもしれない。レシートをスキャンしたり、IDカードを読み取ったり、画像のキャプションを生成したり、弱視の人が画面を操作するのを助けるアプリは、バックグラウンドで静かに動作する視覚言語モデルに依存していることが多い。

FastVLM とは何ですか?

アップルは、他の視覚言語モデルと同じタスクを実行するためにFastVLMを構築したが、より高速で、より強力なプライバシーを持ち、独自のデバイス上で最適化されたパフォーマンスを発揮する。画像の内容を理解し、テキストで応答することができるが、クラウドサーバーに依存する多くのモデルとは異なり、FastVLMはiPhone、iPad、Mac上で完全に実行することができる。

VLMは一般的に高解像度の画像でより優れた性能を発揮します。例えば、下図に示すように、FastVLMは高解像度バージョンの画像が与えられたときのみ、道路標識を「進入禁止」と正しく識別することができた。しかし、高解像度の入力は通常、モデルの速度を低下させます。そこで、FastViTHDが効果を発揮します。

図1.低解像度画像と高解像度画像におけるFastVLMの性能。(出典)

アップルの新しいビジョン・エンコーダFastViTHDは、FastVLMがより少ないメモリと電力で高品質の画像をより効率的に処理できるよう支援します。具体的には、FastViTHDは小型のデバイスでもスムーズに動作するほど軽量です。

また、FastVLMはFastVLM GitHubリポジトリで公開されており、開発者はソースコードにアクセスして変更を加え、アップルのライセンス条項に従って自分のアプリで使用することができる。

FastVLMと他のVLMモデルの比較

他の視覚言語モデルと比較して、FastVLMは、スマートフォンやラップトップなどの日常的なデバイスで動作するように最適化されている。性能テストでは、FastVLMはLLaVA-OneVision-0.5Bのようなモデルよりも85倍も速く最初の単語や出力を生成した。 

図2.FastVLMの性能を他のモデルと比較。(出典)

FastVLMが評価された標準ベンチマークの一部をご紹介します:

  • DocVQA(Document Visual Question Answering):
    ‍ このベンチマークは、スキャンされたフォームやページのようなドキュメント内のテキスト情報を、モデルがどれだけ読み解くことができるかを評価します。
  • TextVQA(テキストベースの視覚的質問応答):テキストが埋め込まれた画像を解釈し、関連する質問に 正確に答えるモデルの能力を評価する。
  • GQA(グラフ質問応答):
    ‍ このタスクは、画像内のオブジェクトとシーンの関係を理解することを要求することで、モデルの推論スキルをテストします。
  • MMMU(Massive Multi-discipline Multimodal Understanding):視覚と文字による理解を組み合わせ、幅広い学問分野と形式にわたってモデルのパフォーマンスを測定する。
  • SeedBench(ベンチマーク用拡張データの標準評価):このベンチマークでは、複数のドメインにわたる視覚的理解と推論におけるモデルの一般的な能力を調査する。

これらのベンチマークにおいて、FastVLMは少ないリソースで競争力のある結果を達成した。FastVLMは、実用的なビジュアルAIを携帯電話、タブレット、ラップトップなどの日常的なデバイスにもたらします。

FastVLMの効率的なビジョンエンコーダ:FastViTHD

次に、FastVLMの画像処理性能で重要な役割を果たすビジョン・エンコーダ、FastViTHDを詳しく見てみましょう。

ほとんどの視覚言語モデルは、画像をトークンと呼ばれる何千もの小さなパッチに分割する。トークンが多ければ多いほど、モデルが画像を理解するのに必要な時間とパワーが増える。このため、特に携帯電話やラップトップでは動作が遅くなることがある。

図3.ビジョンエンコーダが画像を処理する仕組み。出典

FastViTHDは、画像を完全に理解しながらも、使用するトークンの数を減らすことで、多すぎるトークンの処理に伴う速度低下を回避する。FastViTHDは、パターンと関係をモデル化するのが得意なトランスフォーマーと、視覚データを効率的に処理する畳み込みレイヤーという2つのアプローチを組み合わせている。その結果、より高速に動作し、より少ないメモリを使用するシステムが実現した。

アップル社によると、FastViTHDは従来のいくつかのビジョン・エンコーダよりも最大3.4倍小さく、しかも高い精度を維持している。トークン刈り込み(処理を高速化するために重要度の低い画像パッチを削除すること)のようなモデル最適化技術に頼るのではなく、よりシンプルで合理的なアーキテクチャによって効率性を実現している。

FastVLMのモデルバリエーションとトレーニングパイプライン

アップルはFastVLMを3種類のサイズでリリースした:パラメータは0.5B、1.5B、7Bの3種類だ(Bはbillionの略で、モデルの学習可能な重みの数を意味する)。それぞれのバージョンは、異なるタイプのデバイスに適合するように設計されている。より小さなモデルは携帯電話やタブレットで実行でき、より大きな7Bモデルはデスクトップやより負荷の高いタスクに適している。

これにより開発者は、自分のアプリに最適なものを柔軟に選択できる。モバイル向けに高速で軽量なものを作ることも、大規模システム向けに複雑なものを作ることも、すべて同じモデル・アーキテクチャを基礎にしながら可能だ。

アップル社は、視覚モデルと言語モデルをアライメントするためのフレームワークであるLLaVA-1.5パイプラインを使用して、FastVLMモデルのバリエーションをトレーニングした。言語コンポーネントについては、自然で首尾一貫したテキストを生成することで知られるQwenやVicunaなどの既存のオープンソースモデルを使ってFastVLMを評価した。このセットアップにより、FastVLMは単純な画像と複雑な画像の両方を処理し、読みやすく適切な応答を生成することができる。

FastVLMの意義:アップルのAIへの効率的な取り組み

なぜFastVLMの効率的な画像処理が重要なのか、不思議に思うかもしれない。それは、アプリがクラウドに依存することなく、いかにスムーズにリアルタイムで動作できるかということに尽きます。FastVLMは、最大1152×1152ピクセルの高解像度画像を扱うことができ、しかもデバイス上で直接実行できるほど高速で軽量です。

つまり、アプリはカメラで見たものを描写したり、レシートをスキャンして取り込んだり、画面上の変化に反応したりすることができる。これは、教育、アクセシビリティ、生産性、写真などの分野で特に役立ちます。

FastViTHDは大きな画像でも効率的なので、デバイスの応答性と冷却性を保つのに役立ちます。FastViTHDは、エントリーレベルのiPhoneで動作する最小のものを含め、すべてのモデルサイズで動作します。つまり、携帯電話、タブレット、Macにまたがって同じAI機能が使えるということだ。

FastVLM のアプリケーション

FastVLMは、スピード、効率性、オンデバイス・プライバシーなどの主な利点により、幅広いアプリケーションを強化することができます。いくつかの使用方法をご紹介します:

  • 書類の読み取り領収書、フォーム、IDカードをスキャンし、関連情報のみを抽出することができます。画像内の特定の領域にフォーカスできるので、高速かつ正確なテキスト抽出が必要なアプリに便利。
  • 画像のキャプション:写真を分析することで、画像に何が写っているかを明確に説明することができます。これは、カメラアプリ、フォトギャラリー、またはリアルタイムの視覚的理解から恩恵を受けるあらゆるツールの機能をサポートします。
  • アクセシビリティのサポート:FastVLMは、目の不自由なユーザーや弱視のユーザーのために画面上のコンテンツを記述し、ボタン、メニュー、レイアウト要素を操作しやすくし、使いやすくします。

デバイス上のAIアシスタント: FastVLMは、画面上の内容を素早く理解する必要があるAIアシスタントとうまく機能する。FastVLMはデバイス上で直接実行され、データを非公開にするため、情報をクラウドに送信する必要なく、テキストを読んだり、ボタンやアイコンを識別したり、リアルタイムでユーザーをガイドしたりするタスクを支援することができる。

図4.FastVLMはテキスト認識と視覚的な質問応答に使用できる。(出典)

要点

FastVLMは、スピード、プライバシー、効率性を兼ね備えたオンデバイス・ビジョン言語AIをAppleデバイスにもたらします。軽量設計とオープンソースリリースにより、モバイルアプリとデスクトップアプリでリアルタイムの画像理解が可能になります。 

このことは、AIをより実用的で日常的に利用しやすくし、開発者にプライバシーを重視した有用なアプリケーションを構築するための強固な基盤を提供する。今後、視覚言語モデルは、私たちがテクノロジーとどのように接するかにおいて重要な役割を果たし、AIをより反応しやすく、文脈を認識しやすく、日常的な状況で役立つものにする可能性が高い。

GitHubリポジトリでAIについてもっと学びましょう。私たちの活発なコミュニティに参加して、自動車産業におけるAIや 製造業におけるビジョンAIのような分野におけるイノベーションを発見してください。今すぐコンピュータビジョンを始めるには、ライセンスオプションをご覧ください。

AIの未来
を一緒に作りましょう!

機械学習の未来への旅を始めよう

無料で始める
クリップボードにコピーされたリンク