Ultralyticsと共にVision Language Models (VLM)を探求しましょう。Ultralytics YOLO26を使用して、VQAとオープンボキャブラリー detectのために、それらがどのようにコンピュータビジョンとLLMを橋渡しするかを学びます。
ビジョン言語モデル(VLM)は、視覚情報(画像やビデオ)とテキスト情報の両方を同時に処理および解釈できる人工知能の一種です。ピクセルデータのみに焦点を当てる従来のコンピュータービジョンモデルや、テキストのみを理解する大規模言語モデル(LLM)とは異なり、VLMはこれら2つのモダリティ間のギャップを埋めます。画像とテキストのペアを含む膨大なデータセットでトレーニングすることにより、これらのモデルは視覚的特徴と言語的概念を関連付けることを学習し、画像を記述したり、視覚シーンに関する質問に答えたり、「見た」ものに基づいてコマンドを実行したりすることを可能にします。
その核心において、VLMは通常、ビジョンエンコーダとテキストエンコーダという2つの主要コンポーネントで構成されています。ビジョンエンコーダは画像を処理して特徴マップと視覚表現を抽出し、テキストエンコーダは言語入力を処理します。これらの異なるデータストリームは、 クロスアテンションのようなメカニズムを使用して融合され、視覚情報とテキスト情報を共有の埋め込み空間で整合させます。
2024年および2025年の最近の進歩は、単一のTransformerバックボーンが両方のモダリティを処理する、より統一されたアーキテクチャへと移行しています。例えば、Google PaliGemma 2のようなモデルは、これらのストリームを効果的に統合することで、複雑な推論タスクのパフォーマンスをどのように向上させることができるかを示しています。この連携により、モデルは文脈を理解できるようになります。例えば、「apple」という単語が食料品店の画像では果物を指し、ロゴではテクノロジー企業を指すことを認識するなどです。
視覚と言語の両方を通して世界を理解する能力は、さまざまな業界で多様なアプリケーションを開きます。
VLMを他のAIカテゴリと区別することは、その特定の役割を理解するために有用です。
現代のVLMは「オープンボキャブラリー」detectionを可能にし、事前定義されたクラスではなく、自由形式のテキストプロンプトを使用してオブジェクトをdetectできます。これは、再トレーニングなしで動的なクラス定義を可能にするUltralytics YOLO-Worldのようなモデルの主要な特徴です。
次の例は ultralytics テキストで記述された特定のオブジェクトをdetectするためのパッケージ。
from ultralytics import YOLOWorld
# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
ビジョン言語モデルは強力ですが、重大な課題に直面しています。主な問題の1つはハルシネーションであり、モデルが画像内に存在しない物体やテキストを自信を持って記述してしまう現象です。研究者は、接地性と精度を向上させるために、人間からのフィードバックによる強化学習 (RLHF)などの技術に積極的に取り組んでいます。
もう一つの課題は計算コストです。これらの大規模モデルのトレーニングには、多大なGPUリソースが必要となります。しかし、Ultralytics YOLO26のような効率的なアーキテクチャのリリースは、高度なビジョン機能をエッジデバイスにもたらすのに役立っています。今後、VLMがロボットエージェントにおいて重要な役割を果たすと予想され、ロボットが複雑な口頭指示に基づいてオブジェクトをナビゲートし、操作できるようになるでしょう。
理論的基礎に興味のある方には、OpenAIによるオリジナルのCLIP論文が、対照的な言語-画像事前学習に関する優れた洞察を提供します。さらに、CVPR会議論文を追跡することは、これらのアーキテクチャの急速な進化をtrackするために不可欠です。独自のビジョンモデルのトレーニングを実験するには、合理化されたデータセット管理とモデルデプロイメントのためにUltralytics Platformを利用できます。
未来の機械学習で、新たな一歩を踏み出しましょう。