Visual Instruction Tuning

視覚指示チューニングによって、Vision Language Modelが人間の指示に従えるようになる仕組みを解説します。Ultralytics YOLO26を使用して、高度なAIワークフローを構築する方法を学びましょう。

視覚指示チューニングは、従来の自然言語処理手法をマルチモーダル領域に拡張する革新的な機械学習技術です。画像や動画の入力を基に、Vision Language Model (VLM) をトレーニングして明示的な人間の指示に従わせることで、開発者は視覚コンテンツを理解し、推論するAIアシスタントを作成できます。定義済みのカテゴリを出力する標準的な image classification モデルとは異なり、視覚指示チューニングにより、モデルはシーンの説明、画像内のテキスト読み取り、空間関係に関する特定の質問への回答といった、複雑でオープンエンドなタスクを実行できるようになります。これは、テキストベースの large language models (LLMs) と、従来の computer vision パイプラインの間のギャップを埋めるものです。

Link to this section概念と区別の理解#

視覚指示チューニングを理解するには、AIエコシステムにおける関連性の高い概念と区別することが役立ちます。

Instruction Tuning: 通常、テキストのみのLLMが人間の意図に従って安全かつ正確に動作するように調整することを指します。視覚指示チューニングは、この手法を適用しつつ、プロンプトと期待される出力に画像を取り入れます。
Visual Prompting: 通常、画像上にバウンディングボックスを描画したり、点を配置したり、領域をマスクしたりといった視覚的な合図を用いてAIと対話し、モデルの焦点をガイドすることを指します。対照的に、視覚指示チューニングは、視覚データと組み合わせた自然言語コマンドに大きく依存します。

The training process generally involves fine-tuning a pre-trained multi-modal foundation model using extensive datasets formatted as image-text-instruction triplets. Pioneering arXiv research on visual instruction tuning, such as the LLaVA (Large Language-and-Vision Assistant) project, demonstrated that these models can achieve remarkable zero-shot capabilities. Today, major AI organizations employ this technique to power advanced models, including OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet, and Google DeepMind Gemini.

Link to this section実際の応用例#

multimodal deep learning アーキテクチャを人間の意図に合わせることで、視覚指示チューニングはさまざまな業界で高度にインタラクティブなアプリケーションの可能性を切り拓きます。

AI in Healthcare Diagnostics: 医療専門家は、Visual Question Answering (VQA) に指示チューニングされたモデルを使用できます。放射線科医がX線画像と「左下葉の肺炎の兆候を強調し、説明してください」という指示をシステムに入力することで、AIが共同診断アシスタントとして機能することができます。
AI in Manufacturing Quality Control: オペレーターは、ゼロから厳格な欠陥検出モデルをトレーニングする代わりに、「新しく製造されたこの金属製ケースにある微細な傷やへこみを特定してください」と述べることで、Microsoft Florence-2 のようなビジョンシステムに指示を出すことができます。

Link to this sectionビジョンワークフローの構築#

これらの機能を活用するシステムを構築するために、開発者は多くの場合、強力な object detection モデルに依存して画像から構造的なコンテキストを抽出し、そのデータをVLMに渡します。PyTorch multi-modal documentation や TensorFlow vision models を使用して、開発者はハイブリッドなパイプラインを作成できます。

例えば、Ultralytics YOLOモデルを使用してシーンを迅速に把握し、後続のVLMに向けた情報を含んだ言語プロンプトを生成することができます。

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

次世代アプリケーションに必要な複雑なマルチモーダルデータセットの管理は困難な場合があります。Ultralytics Platform は、データセットのアノテーション、クラウドトレーニング、シームレスなモデルデプロイメントのためのエンドツーエンドのツールを提供することで、このプロセスを簡素化します。ACM digital library や IEEE Xplore computer vision アーカイブで最新の論文を読んでいる場合でも、指示チューニングされた高性能なビジョンシステムへの移行は人工知能の最先端を表しています。YOLO26 の認識機能とチューニングされた推論モデルを組み合わせることで、組織は非常に堅牢なAIエージェントをデプロイできます。