YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
Ultralytics用語集に戻る

Visual Instruction Tuning

視覚指示チューニングによって、Vision Language Modelが人間の指示に従えるようになる仕組みを解説します。Ultralytics YOLO26を使用して、高度なAIワークフローを構築する方法を学びましょう。

視覚指示チューニングは、従来の自然言語処理手法をマルチモーダル領域に拡張する革新的な機械学習技術です。画像や動画の入力を基に、Vision Language Model (VLM) をトレーニングして明示的な人間の指示に従わせることで、開発者は視覚コンテンツを理解し、推論するAIアシスタントを作成できます。定義済みのカテゴリを出力する標準的な image classification モデルとは異なり、視覚指示チューニングにより、モデルはシーンの説明、画像内のテキスト読み取り、空間関係に関する特定の質問への回答といった、複雑でオープンエンドなタスクを実行できるようになります。これは、テキストベースの large language models (LLMs) と、従来の computer vision パイプラインの間のギャップを埋めるものです。

Link to this section概念と区別の理解#

視覚指示チューニングを理解するには、AIエコシステムにおける関連性の高い概念と区別することが役立ちます。

  • Instruction Tuning: 通常、テキストのみのLLMが人間の意図に従って安全かつ正確に動作するように調整することを指します。視覚指示チューニングは、この手法を適用しつつ、プロンプトと期待される出力に画像を取り入れます。
  • Visual Prompting: 通常、画像上にバウンディングボックスを描画したり、点を配置したり、領域をマスクしたりといった視覚的な合図を用いてAIと対話し、モデルの焦点をガイドすることを指します。対照的に、視覚指示チューニングは、視覚データと組み合わせた自然言語コマンドに大きく依存します。

The training process generally involves fine-tuning a pre-trained multi-modal foundation model using extensive datasets formatted as image-text-instruction triplets. Pioneering arXiv research on visual instruction tuning, such as the LLaVA (Large Language-and-Vision Assistant) project, demonstrated that these models can achieve remarkable zero-shot capabilities. Today, major AI organizations employ this technique to power advanced models, including OpenAI GPT-4o, Anthropic Claude 3.5 Sonnet, and Google DeepMind Gemini.

Link to this section実際の応用例#

multimodal deep learning アーキテクチャを人間の意図に合わせることで、視覚指示チューニングはさまざまな業界で高度にインタラクティブなアプリケーションの可能性を切り拓きます。

  • AI in Healthcare Diagnostics: 医療専門家は、Visual Question Answering (VQA) に指示チューニングされたモデルを使用できます。放射線科医がX線画像と「左下葉の肺炎の兆候を強調し、説明してください」という指示をシステムに入力することで、AIが共同診断アシスタントとして機能することができます。
  • AI in Manufacturing Quality Control: オペレーターは、ゼロから厳格な欠陥検出モデルをトレーニングする代わりに、「新しく製造されたこの金属製ケースにある微細な傷やへこみを特定してください」と述べることで、Microsoft Florence-2 のようなビジョンシステムに指示を出すことができます。

Link to this sectionビジョンワークフローの構築#

これらの機能を活用するシステムを構築するために、開発者は多くの場合、強力な object detection モデルに依存して画像から構造的なコンテキストを抽出し、そのデータをVLMに渡します。PyTorch multi-modal documentationTensorFlow vision models を使用して、開発者はハイブリッドなパイプラインを作成できます。

例えば、Ultralytics YOLOモデルを使用してシーンを迅速に把握し、後続のVLMに向けた情報を含んだ言語プロンプトを生成することができます。

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

次世代アプリケーションに必要な複雑なマルチモーダルデータセットの管理は困難な場合があります。Ultralytics Platform は、データセットのアノテーション、クラウドトレーニング、シームレスなモデルデプロイメントのためのエンドツーエンドのツールを提供することで、このプロセスを簡素化します。ACM digital libraryIEEE Xplore computer vision アーカイブで最新の論文を読んでいる場合でも、指示チューニングされた高性能なビジョンシステムへの移行は人工知能の最先端を表しています。YOLO26 の認識機能とチューニングされた推論モデルを組み合わせることで、組織は非常に堅牢なAIエージェントをデプロイできます。

Explore solutions

Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを活用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車産業におけるAI

Ultralytics YOLOモデルを使用して、自動車産業にコンピュータビジョンを適用します。Vision AIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

医療におけるAI

Ultralytics YOLOモデルを使用して医療ソリューションを構築しましょう。医療におけるビジョンAIは、より迅速な医用画像処理、よりスマートな診断、そして患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売業におけるAI

Ultralytics YOLOモデルで小売業を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、行列管理、そしてよりスマートな顧客インサイトを強化します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、そしてリアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造業におけるAI

Ultralytics YOLOモデルで製造プロセスを最適化します。ビジョンAIは、品質管理、欠陥検出、PPE(個人用保護具)コンプライアンス、および組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、倉庫の安全性のリアルタイム監視が可能になります。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを活用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車産業におけるAI

Ultralytics YOLOモデルを使用して、自動車産業にコンピュータビジョンを適用します。Vision AIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

医療におけるAI

Ultralytics YOLOモデルを使用して医療ソリューションを構築しましょう。医療におけるビジョンAIは、より迅速な医用画像処理、よりスマートな診断、そして患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売業におけるAI

Ultralytics YOLOモデルで小売業を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、行列管理、そしてよりスマートな顧客インサイトを強化します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、そしてリアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造業におけるAI

Ultralytics YOLOモデルで製造プロセスを最適化します。ビジョンAIは、品質管理、欠陥検出、PPE(個人用保護具)コンプライアンス、および組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、倉庫の安全性のリアルタイム監視が可能になります。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを活用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜トラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your operation

自動車産業におけるAI

Ultralytics YOLOモデルを使用して、自動車産業にコンピュータビジョンを適用します。Vision AIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路環境を実現します。

詳細はこちら
Real-time AI that works with your team

医療におけるAI

Ultralytics YOLOモデルを使用して医療ソリューションを構築しましょう。医療におけるビジョンAIは、より迅速な医用画像処理、よりスマートな診断、そして患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

小売業におけるAI

Ultralytics YOLOモデルで小売業を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、行列管理、そしてよりスマートな顧客インサイトを強化します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現します。ロボティクスにおけるVision AIは、自律航行、認識、物体追跡、そしてリアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

製造業におけるAI

Ultralytics YOLOモデルで製造プロセスを最適化します。ビジョンAIは、品質管理、欠陥検出、PPE(個人用保護具)コンプライアンス、および組立ラインの自動化を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、倉庫の安全性のリアルタイム監視が可能になります。

詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう