Yolo 深圳
深セン
今すぐ参加
用語集

マルチモーダルRAG

マルチモーダルRAGでテキスト、画像、動画を処理する方法を探求しましょう。Ultralytics がAI検索パイプラインを強化し、より正確で文脈を認識した応答を実現する仕組みを学びます。

マルチモーダル検索拡張生成(Multimodal RAG)は、従来のRAGシステムを拡張し、テキスト、画像、動画、音声など多様なデータタイプを処理・推論する高度な人工知能(AI)フレームワークである。標準的な検索拡張生成(RAG)が関連文書を取得することで大規模言語モデル(LLM)の精度を向上させるのに対し、マルチモーダルRAGは関連テキスト文書を取得することで、モデルに「見る」と「聞く」能力を付与する。 は関連するテキスト文書を抽出することで大規模言語モデル(LLM)の精度を向上させるが、マルチモーダルRAGは混合メディア知識ベースから文脈を抽出することでモデルに「見る」「聞く」能力を与える。このアプローチにより、モデルの生成は具体的な視覚的・聴覚的証拠に裏付けられ、LLMにおける幻覚現象を大幅に低減するとともに、プライベートデータセット上での視覚的質問応答といった複雑なタスクを可能にする。マルチモーダル学習を活用することで、これらのシステムはユーザーのクエリ(例:テキスト)と抽出された資産(例:画像)から情報を統合し、複雑なタスクを遂行できる。 タスクを可能にします。マルチモーダル学習を活用することで、これらのシステムはユーザーのクエリ(例:テキスト)と取得された資産(例:図や監視カメラ映像)からの情報を統合し、包括的で文脈を認識した応答を生成できます。

マルチモーダルRAGの仕組み

マルチモーダルRAGシステムのアーキテクチャは、標準的な「検索→生成」パイプラインを反映しつつ、非テキストデータ向けに適応させる。このプロセスはベクトルデータベースと共有意味空間に大きく依存する。

  1. インデックス作成:PDF、動画、スライド資料など様々なソースからのデータが処理される。 特徴抽出モデルはこれらの異なるモダリティを、 埋め込み(embedding)と呼ばれる高次元の数値ベクトルに変換する。 例えばOpenAIのCLIPのようなモデルは、 画像とテキストの埋め込みを整合させるため、 犬の写真と「犬」という単語が数学的に近い位置に配置される。
  2. 検索:ユーザーが質問を提示した場合(例:「この回路基板の欠陥を見せて」)、システムはベクトルデータベース全体で意味検索を実行し、クエリの意図に合致する最も関連性の高い画像や動画クリップを見つけ出します。
  3. 生成:取得した視覚的コンテキストは ビジョン言語モデル(VLM)に入力される。VLMはユーザーのテキストプロンプトと取得した画像特徴の両方を処理し、最終的な回答を生成する。 これは事実上、データと「会話」している状態である。

実際のアプリケーション

マルチモーダルRAGは、AIエージェントが視覚データを通じて物理世界と対話することを可能にすることで、産業を変革しています。

  • 産業メンテナンスと製造: 製造分野におけるAIでは、技術者は故障した機械部品の写真をシステムに提示できます。マルチモーダルRAGシステムは、類似した過去のメンテナンス記録、技術図面、動画チュートリアルを検索し、修理プロセスをガイドします。これによりダウンタイムが削減され、専門知識の民主化が実現します。
  • 小売とEコマースの発見: 小売分野でAIを活用したアプリケーションでは、顧客が気に入った服装の画像をアップロードできます。システムは現在の在庫から視覚的に類似した商品を検索し、スタイリングアドバイスや商品比較を生成することで、高度にパーソナライズされたショッピング体験を実現します。

関連用語の区別

マルチモーダルRAGの具体的な位置づけを理解するには、関連する概念との区別が有用である:

  • マルチモーダルRAG対 マルチモーダルモデル マルチモーダルモデル(GPT-4oやGeminiなど)が応答を生成する。マルチモーダルRAGとは、 そのモデルに、学習に使用されなかった外部・非公開データ(画像、文書)を供給するアーキテクチャである。モデルはエンジンであり、RAGは 燃料供給ラインである。
  • マルチモーダルRAG対ファインチューニング ファインチューニングはモデル重みを恒久的に更新し、 新たなタスクやスタイルを学習する。RAGは推論時に一時的な知識を提供する。頻繁な再学習が現実的でない動的データ (例:日次在庫)にはRAGが適している。

Ultralytics実装

開発者は、マルチモーダルRAGパイプラインの検索コンポーネントを構築するために Ultralytics YOLOを利用できます。画像内のオブジェクトを検出し分類することで、 YOLO 構造化されたメタデータYOLO これはテキストベースの検索用にインデックス化したり、 VLM向けに適切な画像領域をクロップするために使用できます。Ultralytics 、 特定のドメインで重要なカスタムオブジェクトを認識するこれらの特殊なビジョンモデルのトレーニングを簡素化します。

以下の例は、YOLO26を使用して画像から視覚的コンテキスト(検出されたオブジェクト)を抽出し、それをRAGワークフローの一部としてLLMに渡す方法を示しています。

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

その他の資料

  • LangChain ドキュメント: マルチモーダル対応を含む検索パイプライン構築の包括的ガイド。
  • LlamaIndex マルチモーダルガイド: LLM向け複雑データタイプのインデックス作成と検索に関する詳細なドキュメント。
  • Google Vertex AI Search: スケーラブルなRAGアプリケーション構築のためのエンタープライズグレードのベクトル検索機能。
  • Ultralytics コンピュータービジョンが様々な産業分野において、より広範なAIシステムとどのように統合されるかを探求します。

Ultralytics コミュニティに参加する

AIの未来を共に切り開きましょう。グローバルなイノベーターと繋がり、協力し、成長を。

今すぐ参加