YOLO Vision Shenzhen
深セン
今すぐ参加
用語集

マルチモーダルRAG

テキスト、画像、ビデオを処理するためのマルチモーダルRAGを探ります。Ultralytics YOLO26が、より正確で文脈認識的な応答のためにAI検索パイプラインをどのように強化するかを学びましょう。

マルチモーダル検索拡張生成 (Multimodal RAG) は、従来のRAGシステムを拡張し、テキスト、画像、ビデオ、オーディオなどの多様なデータタイプを処理し、推論する高度な人工知能 (AI)フレームワークです。標準的な検索拡張生成 (RAG)が関連するテキスト文書を検索することで大規模言語モデル (LLM)の精度を向上させる一方、マルチモーダルRAGは、混合メディア知識ベースからコンテキストを検索することで、モデルが「見て」「聞いて」理解することを可能にします。このアプローチは、モデルの生成を具体的な視覚的または聴覚的証拠に基づかせ、LLMにおけるハルシネーションを大幅に削減し、プライベートデータセットに対する視覚的質問応答のような複雑なタスクを可能にします。マルチモーダル学習を活用することで、これらのシステムは、ユーザーのクエリ (例: テキスト) と検索されたアセット (例: 図や監視フレーム) から情報を統合し、包括的で文脈を認識した応答を生成できます。

マルチモーダルRAGはどのように機能するか

マルチモーダルRAGシステムのアーキテクチャは、通常、標準的な「Retrieve-then-Generate」パイプラインを模倣しますが、非テキストデータに適応させます。このプロセスは、ベクトルデータベースと共有された意味空間に大きく依存します。

  1. インデックス作成: PDF、ビデオ、スライドデッキなど、さまざまなソースからのデータが処理されます。特徴抽出モデルは、これらの異なるモダリティを埋め込み(embeddings)として知られる高次元の数値ベクトルに変換します。例えば、OpenAIのCLIPのようなモデルは、画像とテキストの埋め込みを整列させ、犬の画像と「犬」という単語が数学的に近くなるようにします。
  2. 検索: ユーザーが質問を提示すると(例:「この回路基板の欠陥を見せてください」)、システムはベクトルデータベース全体でセマンティック検索を実行し、クエリの意図に合致する最も関連性の高い画像またはビデオクリップを見つけます。
  3. 生成: 検索された視覚的コンテキストはVision-Language Model (VLM)に入力されます。VLMはユーザーのテキストプロンプトと検索された画像特徴の両方を処理して最終的な回答を生成し、事実上データと「チャット」します。

実際のアプリケーション

マルチモーダルRAGは、AIエージェントが視覚データを介して物理世界と相互作用することを可能にすることで、産業を変革しています。

  • 産業メンテナンスと製造: 製造業におけるAIにおいて、技術者は故障した機械部品の写真でシステムに問い合わせることができます。マルチモーダルRAGシステムは、類似の過去のメンテナンスログ、技術図面、ビデオチュートリアルを取得して修理プロセスをガイドします。これにより、ダウンタイムが削減され、専門知識が民主化されます。
  • 小売およびEコマースにおける発見: 小売AIを活用したアプリケーションにより、顧客は気に入った服装の画像をアップロードできます。システムは現在の在庫から視覚的に類似したアイテムを検索し、スタイリングのアドバイスや製品比較を生成することで、高度にパーソナライズされたショッピング体験を創出します。

関連用語の区別

マルチモーダルRAGの特定のニッチを理解するには、関連する概念と区別すると役立ちます。

  • Multimodal RAG vs. Multi-Modal Model: マルチモーダルモデル(GPT-4oやGeminiなど)が応答を生成します。マルチモーダルRAGは、そのモデルが学習していない外部のプライベートデータ(画像、ドキュメント)を供給するアーキテクチャです。モデルはエンジンであり、RAGは燃料供給ラインです。
  • Multimodal RAG vs. Fine-Tuning: ファインチューニングは、新しいタスクやスタイルを学習するためにモデルの重みを永続的に更新します。RAGは推論時に一時的な知識を提供します。RAGは、頻繁な再学習が非現実的な動的データ(例:日次在庫)に適しています。

Ultralytics実装

開発者は、Ultralytics YOLOを使用してマルチモーダルRAGパイプラインの検索コンポーネントを構築できます。画像内のオブジェクトをdetectし、classifyすることで、YOLOはテキストベースの検索のためにインデックス付けできる、またはVLMのために関連する画像領域を切り出すために使用できる構造化されたメタデータを提供します。Ultralytics Platformは、特定のドメインにとって重要なカスタムオブジェクトを認識するための、これらの特殊なビジョンモデルのトレーニングを簡素化します。

以下の例は、YOLO26を使用して画像から視覚的コンテキスト(detectされたオブジェクト)を抽出し、それをRAGワークフローの一部としてLLMに渡す方法を示しています。

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

その他の資料

  • LangChainドキュメント: マルチモーダルサポートを含む、検索パイプライン構築のための包括的なガイド。
  • LlamaIndexマルチモーダルガイド: LLM向けの複雑なデータ型のインデックス作成と検索に関する詳細なドキュメント。
  • Google Cloud Vertex AI Search: スケーラブルなRAGアプリケーション構築のためのエンタープライズグレードのベクトル検索機能。
  • Ultralytics Solutions: コンピュータービジョンがさまざまな業界でより広範なAIシステムとどのように統合されるかを探ります。

共にAIの未来を築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。