YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

視覚的指示の調整

視覚的指示の調整によって、ビジョン言語モデルが人間の指示に従えるようになる仕組みを探ります。Ultralytics を使用した高度な AI ワークフローの構築方法を学びましょう。

視覚的指示チューニングは、従来の自然言語 処理手法をマルチモーダル領域へと拡張する革新的な機械学習技術です。画像や動画の入力を基に、 ビジョン・ランゲージ・モデル(VLM)が 人間の明確な指示に従うよう学習させることで、開発者は視覚的コンテンツを理解し、 推論を行うAIアシスタントを作成できます。 あらかじめ定義されたカテゴリを出力する標準的な 画像分類モデルとは異なり、視覚的指示チューニングにより、モデルは シーンの描写、画像内のテキストの読み上げ、空間的な関係に関する具体的な質問への回答など、複雑で自由度の高いタスクを実行できるようになります。これにより、 テキストベースの 大規模言語モデル(LLM)と 従来のコンピュータビジョンパイプラインとの間の ギャップが埋められます。

概念と違いの理解

視覚的指示の調整を理解するには、AIエコシステムにおける密接に関連する概念と区別することが役立ちます:

  • 指示チューニング通常、 テキストのみのLLMを調整し、人間の意図を安全かつ正確に反映させることを指します。視覚的指示チューニングでは、 この同じ手法を用いますが、プロンプトと期待される出力に画像を取り入れます。
  • 視覚的プロンプティング通常、 画像上にバウンディングボックスを描画したり、ポイントを配置したり、 領域をマスクしたりといった視覚的な手がかりを用いてAIと対話することで、モデルの注目すべき箇所を誘導します。これに対し、視覚的指示チューニングは、視覚データと組み合わせた自然言語による コマンドに大きく依存しています。

トレーニングプロセスでは、一般的に、 画像・テキスト・指示の3要素からなる大規模なデータセットを用いて、事前学習済みのマルチモーダル基盤モデルを微調整します。 LLaVA(Large Language-and-Vision Assistant)プロジェクトなど、視覚的指示によるチューニングに関する先駆的なarXiv研究は、 これらのモデルが驚くべきゼロショット性能を発揮できることを実証しました。現在、主要なAI企業は、 OpenAIのGPT-4oAnthropic 3.5 SonnetGoogle Geminiといった高度なモデルを駆動するために、この技術を採用しています。

実際のアプリケーション

マルチモーダル深層学習アーキテクチャを 人間の意図に合わせて調整することで、視覚的指示の最適化は、さまざまな業界において高度にインタラクティブなアプリケーションを実現します:

  • 医療診断におけるAI 医療従事者は、指示調整済みモデルを 視覚的質問応答(VQA)に活用できます。例えば、 放射線科医がX線画像と「左下葉の肺炎の兆候を 強調表示し、説明してください」という指示をシステムに入力することで、AIを診断支援ツールとして活用することが可能になります。
  • 製造工程における品質管理とAI 欠陥検出モデルをゼロから厳密に学習させる代わりに、オペレーターは次のように指示することで、 Microsoft のようなビジョンシステムに、「この新しく製造された金属ケースに微細な傷やへこみがないか特定してください」と指示することができます。

ビジョンワークフローの構築

これらの機能を活用するシステムを構築するため、開発者は多くの場合、堅牢な 物体検出モデルを用いて画像から構造的な コンテキストを抽出し、そのデータをVLMに渡しています。 PyTorch ドキュメントや TensorFlow モデルを活用することで、開発者はハイブリッドな パイプラインを構築することができます。

例えば、Ultralytics YOLO を使用してシーンを素早く認識し、下流のVLM向けに適切な言語 プロンプトを生成することができます:

from ultralytics import YOLO

# Load an Ultralytics YOLO26 model to extract visual context
model = YOLO("yolo26n.pt")

# Perform inference to identify objects for a downstream VLM prompt
results = model("https://ultralytics.com/images/bus.jpg")

# Extract object names to dynamically build an instruction prompt
objects = [model.names[int(cls)] for cls in results[0].boxes.cls]
prompt = f"Please provide a detailed safety analysis of the scene containing these objects: {', '.join(objects)}"

print(prompt)
# Output: Please provide a detailed safety analysis of the scene containing these objects: bus, person, person...

こうした次世代アプリケーションに必要な、複雑でマルチモーダルなデータセットの管理は、困難を伴う場合があります。 Ultralytics 、データセットのアノテーション、クラウド上でのトレーニング、そしてシームレスなモデル展開のためのエンドツーエンドのツールを提供することで、このプロセスを簡素化します。ACMデジタルライブラリ IEEE Xploreのコンピュータビジョンアーカイブで 最先端の論文を読んでいるかどうかに関わらず、 指示に最適化された高性能なビジョンシステムへの移行は、人工知能の最先端を象徴しています。 YOLO26による知覚機能と最適化された推論モデルを組み合わせることで、組織は 非常に堅牢なAIエージェントを展開できるようになります。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。