マルチモーダルRAGでテキスト、画像、動画を処理する方法を探求しましょう。Ultralytics がAI検索パイプラインを強化し、より正確で文脈を認識した応答を実現する仕組みを学びます。
マルチモーダル検索拡張生成(Multimodal RAG)は、従来のRAGシステムを拡張し、テキスト、画像、動画、音声など多様なデータタイプを処理・推論する高度な人工知能(AI)フレームワークである。標準的な検索拡張生成(RAG)が関連文書を取得することで大規模言語モデル(LLM)の精度を向上させるのに対し、マルチモーダルRAGは関連テキスト文書を取得することで、モデルに「見る」と「聞く」能力を付与する。 は関連するテキスト文書を抽出することで大規模言語モデル(LLM)の精度を向上させるが、マルチモーダルRAGは混合メディア知識ベースから文脈を抽出することでモデルに「見る」「聞く」能力を与える。このアプローチにより、モデルの生成は具体的な視覚的・聴覚的証拠に裏付けられ、LLMにおける幻覚現象を大幅に低減するとともに、プライベートデータセット上での視覚的質問応答といった複雑なタスクを可能にする。マルチモーダル学習を活用することで、これらのシステムはユーザーのクエリ(例:テキスト)と抽出された資産(例:画像)から情報を統合し、複雑なタスクを遂行できる。 タスクを可能にします。マルチモーダル学習を活用することで、これらのシステムはユーザーのクエリ(例:テキスト)と取得された資産(例:図や監視カメラ映像)からの情報を統合し、包括的で文脈を認識した応答を生成できます。
マルチモーダルRAGシステムのアーキテクチャは、標準的な「検索→生成」パイプラインを反映しつつ、非テキストデータ向けに適応させる。このプロセスはベクトルデータベースと共有意味空間に大きく依存する。
マルチモーダルRAGは、AIエージェントが視覚データを通じて物理世界と対話することを可能にすることで、産業を変革しています。
マルチモーダルRAGの具体的な位置づけを理解するには、関連する概念との区別が有用である:
開発者は、マルチモーダルRAGパイプラインの検索コンポーネントを構築するために Ultralytics YOLOを利用できます。画像内のオブジェクトを検出し分類することで、 YOLO 構造化されたメタデータYOLO これはテキストベースの検索用にインデックス化したり、 VLM向けに適切な画像領域をクロップするために使用できます。Ultralytics 、 特定のドメインで重要なカスタムオブジェクトを認識するこれらの特殊なビジョンモデルのトレーニングを簡素化します。
以下の例は、YOLO26を使用して画像から視覚的コンテキスト(検出されたオブジェクト)を抽出し、それをRAGワークフローの一部としてLLMに渡す方法を示しています。
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person