YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

Vision Language Model (VLM)

Ultralyticsと共にVision Language Models (VLM)を探求しましょう。Ultralytics YOLO26を使用して、VQAとオープンボキャブラリー detectのために、それらがどのようにコンピュータビジョンとLLMを橋渡しするかを学びます。

ビジョン言語モデル(VLM)は、視覚情報(画像やビデオ)とテキスト情報の両方を同時に処理および解釈できる人工知能の一種です。ピクセルデータのみに焦点を当てる従来のコンピュータービジョンモデルや、テキストのみを理解する大規模言語モデル(LLM)とは異なり、VLMはこれら2つのモダリティ間のギャップを埋めます。画像とテキストのペアを含む膨大なデータセットでトレーニングすることにより、これらのモデルは視覚的特徴と言語的概念を関連付けることを学習し、画像を記述したり、視覚シーンに関する質問に答えたり、「見た」ものに基づいてコマンドを実行したりすることを可能にします。

Vision Languageモデルの仕組み

その核心において、VLMは通常、ビジョンエンコーダとテキストエンコーダという2つの主要コンポーネントで構成されています。ビジョンエンコーダは画像を処理して特徴マップと視覚表現を抽出し、テキストエンコーダは言語入力を処理します。これらの異なるデータストリームは、 クロスアテンションのようなメカニズムを使用して融合され、視覚情報とテキスト情報を共有の埋め込み空間で整合させます。

2024年および2025年の最近の進歩は、単一のTransformerバックボーンが両方のモダリティを処理する、より統一されたアーキテクチャへと移行しています。例えば、Google PaliGemma 2のようなモデルは、これらのストリームを効果的に統合することで、複雑な推論タスクのパフォーマンスをどのように向上させることができるかを示しています。この連携により、モデルは文脈を理解できるようになります。例えば、「apple」という単語が食料品店の画像では果物を指し、ロゴではテクノロジー企業を指すことを認識するなどです。

実際のアプリケーション

視覚と言語の両方を通して世界を理解する能力は、さまざまな業界で多様なアプリケーションを開きます。

  • Visual Question Answering (VQA): VLMは、放射線科医を支援するためにヘルスケア診断で広く使用されています。医師がシステムに「このX線写真に骨折はありますか?」と尋ねると、モデルは医用画像を分析して予備評価を提供し、診断エラーを減らします。
  • Smart E-Commerce Search: 小売環境では、VLM(Vision-Language Models)により、ユーザーは自然言語の説明と画像を組み合わせて商品を検索できます。買い物客は有名人の服装の写真をアップロードし、「この柄で青いドレスを見つけてください」と尋ねることができ、システムはセマンティック検索を使用して正確な一致を検索します。
  • 自動キャプション生成とアクセシビリティ: VLMは、ウェブ上の画像に対して記述的なalt textを自動的に生成し、スクリーンリーダーに依存する視覚障害のあるユーザーにとってデジタルコンテンツがよりアクセスしやすくなります。

VLMと関連概念の比較

VLMを他のAIカテゴリと区別することは、その特定の役割を理解するために有用です。

  • VLM vs. LLM: 大規模言語モデル (GPT-4のテキストのみのバージョンなど) は、テキストデータのみを処理します。創造的な物語やコードを生成できますが、画像を「見る」ことはできません。VLMは、LLMに効果的に目を与えます。
  • VLM vs. Object Detection: 従来のobject detectionモデル(初期のYOLOバージョンなど)は、オブジェクトがどこにあり、どのクラスに属するか(例:「車: 99%」)を識別します。VLMはさらに進んで、「消火栓の隣に駐車された赤いスポーツカー」のように、関係性や属性を理解します。
  • VLM vs. マルチモーダルAI: マルチモーダルAIは、より広範な包括的な用語です。すべてのVLMはマルチモーダル (視覚と言語を組み合わせる) ですが、すべてのマルチモーダルモデルがVLMであるわけではありません。一部は、言語コンポーネントなしで音声とテキスト (音声認識など) やビデオとセンサーデータを組み合わせる場合があります。

YOLOによるオープンボキャブラリー検出

現代のVLMは「オープンボキャブラリー」detectionを可能にし、事前定義されたクラスではなく、自由形式のテキストプロンプトを使用してオブジェクトをdetectできます。これは、再トレーニングなしで動的なクラス定義を可能にするUltralytics YOLO-Worldのようなモデルの主要な特徴です。

次の例は ultralytics テキストで記述された特定のオブジェクトをdetectするためのパッケージ。

from ultralytics import YOLOWorld

# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])

# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the detection results
results[0].show()

課題と今後の方向性

ビジョン言語モデルは強力ですが、重大な課題に直面しています。主な問題の1つはハルシネーションであり、モデルが画像内に存在しない物体やテキストを自信を持って記述してしまう現象です。研究者は、接地性と精度を向上させるために、人間からのフィードバックによる強化学習 (RLHF)などの技術に積極的に取り組んでいます。

もう一つの課題は計算コストです。これらの大規模モデルのトレーニングには、多大なGPUリソースが必要となります。しかし、Ultralytics YOLO26のような効率的なアーキテクチャのリリースは、高度なビジョン機能をエッジデバイスにもたらすのに役立っています。今後、VLMがロボットエージェントにおいて重要な役割を果たすと予想され、ロボットが複雑な口頭指示に基づいてオブジェクトをナビゲートし、操作できるようになるでしょう。

理論的基礎に興味のある方には、OpenAIによるオリジナルのCLIP論文が、対照的な言語-画像事前学習に関する優れた洞察を提供します。さらに、CVPR会議論文を追跡することは、これらのアーキテクチャの急速な進化をtrackするために不可欠です。独自のビジョンモデルのトレーニングを実験するには、合理化されたデータセット管理とモデルデプロイメントのためにUltralytics Platformを利用できます。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。