テキスト、画像、ビデオを処理するためのマルチモーダルRAGを探ります。Ultralytics YOLO26が、より正確で文脈認識的な応答のためにAI検索パイプラインをどのように強化するかを学びましょう。
マルチモーダル検索拡張生成 (Multimodal RAG) は、従来のRAGシステムを拡張し、テキスト、画像、ビデオ、オーディオなどの多様なデータタイプを処理し、推論する高度な人工知能 (AI)フレームワークです。標準的な検索拡張生成 (RAG)が関連するテキスト文書を検索することで大規模言語モデル (LLM)の精度を向上させる一方、マルチモーダルRAGは、混合メディア知識ベースからコンテキストを検索することで、モデルが「見て」「聞いて」理解することを可能にします。このアプローチは、モデルの生成を具体的な視覚的または聴覚的証拠に基づかせ、LLMにおけるハルシネーションを大幅に削減し、プライベートデータセットに対する視覚的質問応答のような複雑なタスクを可能にします。マルチモーダル学習を活用することで、これらのシステムは、ユーザーのクエリ (例: テキスト) と検索されたアセット (例: 図や監視フレーム) から情報を統合し、包括的で文脈を認識した応答を生成できます。
マルチモーダルRAGシステムのアーキテクチャは、通常、標準的な「Retrieve-then-Generate」パイプラインを模倣しますが、非テキストデータに適応させます。このプロセスは、ベクトルデータベースと共有された意味空間に大きく依存します。
マルチモーダルRAGは、AIエージェントが視覚データを介して物理世界と相互作用することを可能にすることで、産業を変革しています。
マルチモーダルRAGの特定のニッチを理解するには、関連する概念と区別すると役立ちます。
開発者は、Ultralytics YOLOを使用してマルチモーダルRAGパイプラインの検索コンポーネントを構築できます。画像内のオブジェクトをdetectし、classifyすることで、YOLOはテキストベースの検索のためにインデックス付けできる、またはVLMのために関連する画像領域を切り出すために使用できる構造化されたメタデータを提供します。Ultralytics Platformは、特定のドメインにとって重要なカスタムオブジェクトを認識するための、これらの特殊なビジョンモデルのトレーニングを簡素化します。
以下の例は、YOLO26を使用して画像から視覚的コンテキスト(detectされたオブジェクト)を抽出し、それをRAGワークフローの一部としてLLMに渡す方法を示しています。
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

未来の機械学習で、新たな一歩を踏み出しましょう。