用語集

ビジョン言語モデル (VLM)

Ultralyticsビジョン言語モデル（VLM）を探求しましょう。Ultralytics を用いて、VQAやオープンボキャブラリ検出のためにコンピュータビジョンとLLMを橋渡しする方法を学びます。

ビジョン言語モデル（VLM）とは、視覚情報（画像や動画）とテキスト情報の両方を同時に処理・解釈できる人工知能の一種である。従来のコンピュータビジョンモデルがピクセルデータのみに焦点を当て、大規模言語モデル（LLM）がテキストのみを理解するのとは異なり、VLMはこれら二つのモダリティの間のギャップを埋める。画像とテキストのペアを含む膨大なデータセットで学習させることで、これらのモデルは視覚的特徴と言語的概念を関連付けることを学び、画像の説明、視覚的シーンに関する質問への回答、さらには「見た」ものに基づいたコマンドの実行さえ可能にする。

ビジョン言語モデルの仕組み

VLMsは基本的に、主に2つの構成要素から成る：視覚エンコーダとテキストエンコーダである。視覚エンコーダは画像を処理して特徴マップと視覚的表現を抽出する一方、テキストエンコーダは言語的入力を扱う。これらの異なるデータストリームは、クロスアテンションなどのメカニズムを用いて融合され、共有埋め込み空間において視覚情報とテキスト情報を整合させる。

2024年と2025年の最近の進歩は、単一のトランスフォーマー基盤が両モダリティを処理するより統一されたアーキテクチャへと向かっている。例えば、 Google 2 のようなモデルは、これらのストリームを効果的に統合することで、複雑な推論タスクにおける性能が向上することを実証している。この整合性により、モデルは文脈を理解できるようになる。例えば、単語「apple」が食料品店の画像では果物を指すが、ロゴではテクノロジー企業を指すことを認識できる。

実際のアプリケーション

視覚と言語の両方を通じて世界を理解する能力は、様々な産業分野で多様な応用を開拓します：

視覚的質問応答（VQA）：VLMsは医療診断において放射線科医を支援するために多用されている。医師がシステムに「このX線写真に骨折はありますか？」と質問すると、モデルは医療画像を分析して予備評価を提供し、診断ミスを減らす。
スマートEコマース検索： 小売環境において、VLMsはユーザーが画像と組み合わせた自然言語記述を用いて商品を検索することを可能にします。買い物客は有名人の服装の写真をアップロードし、「この柄で青色のドレスを探して」と尋ねることができ、システムは意味検索を用いて正確な一致を検索します。
自動キャプションとアクセシビリティ：VLMsはウェブ上の画像に対して説明的な代替テキストを自動生成し、スクリーンリーダーに依存する視覚障害のあるユーザーにとってデジタルコンテンツをより利用しやすくします。

VLMsと関連概念の区別

VLMsを他のAIカテゴリーと区別することは、その特定の役割を理解する上で有益である：

VLM vs. LLM: 大規模言語モデル（GPT-4のテキスト専用版など）はテキストデータのみを処理します。創造的な物語やコードを生成することは可能ですが、画像を「見る」ことはできません。VLMはLLMに目を与える役割を果たします。
VLM対物体検出： 従来の物体検出モデル（初期のYOLO など）は、物体の位置と 所属クラス（例：「車：99%」）を特定する。VLMはさらに踏み込み、「消火栓の隣に駐車された赤いスポーツカー」といった関係性や属性を理解する。
VLM対マルチモーダルAI： マルチモーダルAIはより広範な包括的用語である。すべての VLMはマルチモーダル（視覚と言語を組み合わせる）であるが、すべてのマルチモーダルモデルがVLMとは限らない。音声とテキスト（音声認識など）や、言語要素を伴わない動画とセンサーデータを組み合わせるモデルも存在する。

YOLOを用いたオープンボキャブラリ検出

最新のVLMsは「オープンボキャブラリー」検出を実現し、事前定義されたクラスではなく自由形式のテキストプロンプトを用いてdetect 。Ultralytics YOLOモデルの主要機能であり、再学習なしで動的なクラス定義を可能にします。

次の例は ultralytics detect をdetect パッケージテキストで記述されたもの：

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

課題と今後の方向性

強力な一方で、ビジョン言語モデルは重大な課題に直面している。主要な問題の一つは幻覚現象であり、モデルが画像内に存在しない物体やテキストを確信を持って描写してしまう現象である。研究者らは人間からのフィードバックに基づく強化学習（RLHF）などの手法を積極的に研究し、現実との整合性と精度向上に取り組んでいる。

もう一つの課題は計算コストである。これらの大規模モデルを訓練するにはGPU が必要となる。しかし、Ultralytics 効率的なアーキテクチャの登場により、高度な視覚機能をエッジデバイスに導入することが可能になりつつある。今後、VLMsがロボットエージェントにおいて重要な役割を果たし、複雑な音声指示に基づいてロボットが移動や物体の操作を実行できるようになると予想される。

理論的基盤に関心のある方へ、OpenAIによるオリジナルのCLIP論文は対照的言語-画像事前学習に関する優れた洞察を提供します。さらに、これらのアーキテクチャの急速な進化を追跡するには、CVPRカンファレンス論文を常に把握することが不可欠です。独自のビジョンモデルを訓練する実験には、Ultralytics を活用することで、効率的なデータセット管理とモデルデプロイメントを実現できます。

ビジョン言語モデル (VLM)

Ultralytics YOLO モデルをトレーニングし、業種を問わずワークフローを効率化する

お客様のイノベーションを強化する柔軟なエンタープライズライセンスソリューション

Ultralytics YOLOAIモデルを数秒でトレーニング

ビジョン言語モデルの仕組み

実際のアプリケーション

VLMsと関連概念の区別

YOLOを用いたオープンボキャブラリ検出

課題と今後の方向性

このカテゴリの関連記事

mAP を改善する方法：クイックガイド

コンピュータービジョンによる生物多様性監視の再定義

エッジとクラウドでYOLO26を効率的に展開するための5つのポイント

Ultralytics コミュニティに参加する