YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
ビジョンAI

FastVLM: Appleが新しい高速Vision-Languageモデルを発表

AppleはCVPR 2025にてFastVLMを発表しました。このオープンソースのVision-LanguageモデルはFastViTHDエンコーダーを搭載し、Time-to-First-Token(最初のトークン生成までの時間)を最大85倍高速化します。

ABAbirami Vina
4 min read
AppleのFastVLM高速Vision-Languageモデル

CVPR 2025カンファレンスにおいて、AppleはFastVLMと呼ばれる新しいオープンソースのAIモデルを発表しました。これは画像と自然言語の両方を理解するように構築されており、iPhone、iPad、MacといったAppleデバイス上で動作します。つまり、データをクラウドに送信することなく、スマートな結果を素早く提供できるということです。

FastVLMの特に興味深い点は、その高速かつ効率的な処理能力です。AppleはFastViTHDという新しいビジョンエンコーダーを開発し、メモリと電力の消費を抑えつつ、高品質な画像をモデルが解釈できるようにしました。すべての処理はデバイス上でローカルに行われるため、ユーザーのプライバシーを保護しながら、より速いレスポンスタイムを実現しています。

本記事では、FastVLMの仕組みや特徴、そして今回のAppleによるリリースが、デバイス上での日常的なAIアプリケーションにとってなぜ重要な前進となるのかを解説します。

Link to this sectionビジョン言語モデル(VLM)とは#

FastVLMの特長を掘り下げる前に、その名称にある「VLM」が何を指すのかを確認しましょう。これはビジョン言語モデルの略称であり、視覚的なコンテンツを言語と関連付けて理解するように設計されています。

VLMは視覚的理解と自然言語を統合し、写真の解説、スクリーンショットに関する質問への回答、文書からのテキスト抽出といったタスクを実行可能にします。ビジョン言語モデルは通常、画像を処理してデータに変換する役割と、そのデータを解釈して読み上げやテキストによる回答を生成する役割という2つの部分で機能します。

読者の皆さんは、すでにこのようなAIイノベーションを意識せずに利用しているかもしれません。領収書の読み取り、IDカードのスキャン、画像のキャプション生成、あるいは視覚に障がいのある方の画面操作を支援するアプリなどは、多くの場合、バックグラウンドで静かに動作するビジョン言語モデルに支えられています。

Link to this sectionFastVLMとは何か?#

Appleは、他のビジョン言語モデルと同様のタスクを実行しつつ、より高速で、プライバシー保護が強化され、自社デバイス上で最適化されたパフォーマンスを発揮できるようFastVLMを構築しました。画像の内容を理解してテキストで応答できますが、クラウドサーバーに依存する多くのモデルとは異なり、FastVLMはiPhone、iPad、またはMac上で完全に動作可能です。

一般的に、VLMは高解像度の画像を用いることでパフォーマンスが向上します。例えば、以下に示すように、FastVLMが道路標識を「進入禁止」と正しく認識できたのは、高解像度の画像が与えられた場合のみでした。しかし、高解像度の入力は通常モデルの処理速度を低下させます。ここでFastViTHDが重要な役割を果たします。

低解像度画像と高解像度画像におけるFastVLMのパフォーマンス

図1. 低解像度画像と高解像度画像におけるFastVLMのパフォーマンス (出典)

Appleの新しいビジョンエンコーダーFastViTHDは、FastVLMがメモリと電力消費を抑えながら、より効率的に高品質な画像を処理することを可能にします。具体的には、FastViTHDは小型デバイス上でもスムーズに動作するほど軽量です。

また、FastVLMはFastVLM GitHubリポジトリで公開されており、開発者はソースコードにアクセスし、変更を加え、Appleのライセンス条項に従って独自のアプリで使用することができます。

Link to this sectionFastVLMと他のVLMモデルの比較#

他のビジョン言語モデルと比較して、FastVLMはスマートフォンやラップトップといった日常的なデバイスで動作するように最適化されています。パフォーマンス・テストにおいて、FastVLMはLLaVA-OneVision-0.5Bのようなモデルと比べて、最初の単語や出力を生成する速度が最大85倍高速でした。

FastVLMのパフォーマンスと他のモデルとの比較

図2. FastVLMのパフォーマンスを他のモデルと比較 (出典)

FastVLMが評価された標準的なベンチマークの一部を以下に示します。

  • DocVQA (Document Visual Question Answering): このベンチマークは、スキャンされたフォームやページなど、文書内のテキスト情報をモデルがどの程度読み取り、理解できるかを評価します。
  • TextVQA (Text-based Visual Question Answering): 画像内に埋め込まれたテキストを解釈し、それに関連する質問に正確に回答できるモデルの能力を評価します。
  • GQA (Graph Question Answering): このタスクでは、画像内のオブジェクトとシーンの間の関係を理解させることで、モデルの推論スキルをテストします。
  • MMMU (Massive Multi-discipline Multimodal Understanding): 視覚とテキストの理解を組み合わせ、幅広い学術分野や形式にわたるモデルのパフォーマンスを測定します。
  • SeedBench (Standard Evaluation of Enhanced Data for Benchmarking): このベンチマークは、複数のドメインにわたる視覚的理解と推論におけるモデルの一般的な能力を調査します。

これらのベンチマークにおいて、FastVLMはより少ないリソースで競争力のある結果を達成しました。これにより、携帯電話、タブレット、ラップトップといった日常的なデバイスで実用的なビジョンAIが実現されます。

Link to this sectionFastVLMの効率的なビジョンエンコーダー:FastViTHD#

次に、FastVLMの画像処理パフォーマンスにおいて重要な役割を果たすビジョンエンコーダー、FastViTHDについて詳しく見ていきましょう。

ほとんどのビジョン言語モデルは、画像を「トークン」と呼ばれる数千の小さなパッチに分割します。トークンが多いほど、モデルが画像を理解するために必要な時間と電力が増大します。これは特に電話やラップトップでは処理を遅くする原因となります。

ビジョンエンコーダーが画像を処理する仕組み

図3. ビジョンエンコーダーによる画像の処理方法 (出典)

FastViTHDは、トークン数を減らすことで過剰な処理による遅延を回避しつつ、画像を完全に理解します。これには、パターンや関係のモデル化に優れたTransformerと、視覚データの処理効率が高い畳み込み層という2つのアプローチが組み合わされています。その結果、より高速でメモリ消費の少ないシステムが実現しました。

Appleによると、FastViTHDは従来のビジョンエンコーダーより最大3.4倍小型でありながら、高い精度を維持しています。トークン・プルーニング(処理を高速化するために重要度の低い画像パッチを削除する技術)のようなモデル最適化手法に頼るのではなく、より単純で合理化されたアーキテクチャを通じて効率性を実現しています。

Link to this sectionFastVLMのモデルバリエーションとトレーニング・パイプライン#

AppleはFastVLMを、0.5B、1.5B、7Bパラメータ(「B」は10億を意味し、モデル内のトレーニング可能な重みの数を示す)という3つの異なるサイズでリリースしました。各バージョンは、さまざまな種類のデバイスに適合するように設計されています。小型モデルは電話やタブレットで実行可能で、より大きな7Bモデルはデスクトップや負荷の高いタスクにより適しています。

これにより、開発者はアプリに最適なものを柔軟に選択できます。同じ基礎モデル・アーキテクチャを使用しながら、モバイル用に高速で軽量なものや、より大型のシステム向けに複雑なものを構築することが可能です。

Appleは、ビジョンモデルと言語モデルを整合させるフレームワークであるLLaVA-1.5パイプラインを使用して、FastVLMのモデルバリエーションをトレーニングしました。言語コンポーネントには、自然で整合性のあるテキストを生成することで知られるQwenやVicunaなどの既存のオープンソースモデルを使用しています。この構成により、FastVLMは単純な画像から複雑な画像まで処理し、読みやすく関連性の高い回答を生成できます。

Link to this sectionFastVLMの意義:Appleによる効率的なAIへのアプローチ#

なぜFastVLMの効率的な画像処理が重要なのかと疑問に思うかもしれません。それは、アプリがクラウドに依存せずリアルタイムでスムーズに動作できるかどうかに関わっているからです。FastVLMは、1152×1152ピクセルまでの高解像度画像を扱いながら、デバイス上で直接実行できるほど高速かつ軽量です。

つまり、カメラが捉えたものをアプリが説明したり、領収書を撮影と同時にスキャンしたり、画面上の変化に応答したりすることが、すべてローカル環境で完結します。これは教育、アクセシビリティ、生産性、写真といった分野で特に役立ちます。

FastViTHDは大きな画像に対しても効率的なため、デバイスの反応を維持しつつ、発熱を抑える効果があります。エントリーレベルのiPhoneでも動作する最小モデルを含め、あらゆるモデルサイズで機能します。つまり、同じAI機能が電話、タブレット、Mac全体で動作するということです。

Link to this sectionFastVLMの応用#

FastVLMは、その速度、効率性、デバイス上でのプライバシーといった主要な利点により、幅広いアプリケーションの原動力となります。主な活用例は以下の通りです。

  • 文書の読み取り: 領収書、フォーム、IDカードをスキャンし、関連情報のみを抽出できます。画像内の特定の領域にフォーカスできるため、高速かつ正確なテキスト抽出が必要なアプリに有用です。

  • 画像キャプション: 写真を分析することで、画像の内容を分かりやすく説明したキャプションを生成できます。これはカメラアプリやフォトギャラリー、あるいはリアルタイムの視覚的理解が役立つあらゆるツールをサポートします。

  • アクセシビリティのサポート: FastVLMは、視覚障がいのあるユーザー向けに画面上のコンテンツを説明することで、ボタン、メニュー、レイアウト要素をより簡単にナビゲートして操作できるようにします。

  • デバイス上AIアシスタント: FastVLMは、画面上の内容を迅速に理解する必要があるAIアシスタントと相性が抜群です。デバイス上で直接動作しデータを非公開に保てるため、クラウドに情報を送信することなく、テキストの読み取り、ボタンやアイコンの識別、リアルタイムでのユーザーのガイドといったタスクを支援できます。

FastVLMはテキスト認識や視覚的質問応答に使用可能

図4. FastVLMはテキスト認識や視覚的質問応答に使用可能 (出典)

Link to this section重要なポイント#

FastVLMは、速度、プライバシー、効率を兼ね備え、Appleデバイスにデバイス上ビジョン言語AIをもたらします。その軽量な設計とオープンソースとしてのリリースにより、モバイルアプリからデスクトップアプリに至るまで、リアルタイムの画像理解を実現します。

これにより、AIは日常利用においてより実用的かつ身近なものとなり、開発者にとって有用でプライバシー重視のアプリケーションを構築するための強固な基盤となります。今後、ビジョン言語モデルは私たちがテクノロジーと対話する方法において重要な役割を果たし、AIはより応答性が高く、文脈を理解し、日常的な状況で役立つ存在になるでしょう。

AIの詳細については、私たちのGitHubリポジトリをチェックしてください。活発なコミュニティに参加し、自動車業界におけるAI製造現場におけるビジョンAIなどのセクターにおける革新を発見しましょう。コンピュータビジョンを今すぐ始めるには、ライセンスオプションをご覧ください。

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。
詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。
詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。
詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。
詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。
詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。
詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。
詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう