텍스트, 이미지, 비디오를 처리하는 다중 모달 RAG(Retrieval-Augmented Generation)를 탐색하세요. Ultralytics AI 검색 파이프라인을 어떻게 강화하여 더 정확하고 문맥을 인식하는 응답을 제공하는지 알아보세요.
다중 모달 검색 강화 생성(Multimodal RAG)은 기존 RAG 시스템을 확장하여 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 처리하고 추론하는 고급 인공지능(AI) 프레임워크입니다. 표준 검색 강화 생성(RAG)이 대규모 언어 모델(LLM) 의 정확도를 향상시키지만, 다중 모달 RAG는 혼합 미디어 지식 기반에서 맥락을 검색함으로써 모델이 "보고" "듣는" 것을 가능하게 합니다. 이 접근법은 모델의 생성을 구체적인 시각적 또는 청각적 증거에 기반하여 LLM의 환각 현상을 크게 줄이고 비공개 데이터셋을 통한 시각적 질문 응답과 같은 사설 데이터셋에서의 시각적 질문응답과 같은 복잡한 작업을 가능케 합니다. 다중 모달 학습을 활용함으로써, 이러한 시스템은 사용자의 질의(예: 텍스트)와 검색된 자산(예: 다이어그램 또는 감시 카메라 화면)으로부터 정보를 종합하여 포괄적이고 맥락을 인지하는 응답을 생성할 수 있습니다.
다중 모달 RAG 시스템의 아키텍처는 일반적으로 표준 "검색 후 생성(Retrieve-then-Generate)" 파이프라인을 반영하지만 비텍스트 데이터에 맞게 조정됩니다. 이 프로세스는 벡터 데이터베이스와 공유 의미 공간에 크게 의존합니다.
다중 모달 RAG는 시각적 데이터를 통해 인공지능 에이전트가 물리적 세계와 상호작용할 수 있도록 함으로써 산업을 변화시키고 있습니다.
다중 모달 RAG의 구체적인 영역을 이해하기 위해서는 관련 개념들과 구분하는 것이 도움이 됩니다:
개발자는 다음을 사용하여 다중 모달 RAG 파이프라인의 검색 구성 요소를 구축할 수 있습니다. Ultralytics YOLO를 사용하여 구축할 수 있습니다. 이미지 내 객체를 탐지하고 분류함으로써, YOLO 텍스트 기반 검색을 위해 색인화하거나 VLM을 위한 관련 이미지 영역을 자르기 위해 사용할 수 있는 구조화된 메타데이터를 YOLO . Ultralytics 특정 도메인에 중요한 맞춤형 객체를 인식하도록 이러한 전문 비전 모델을 훈련하는 과정을 간소화합니다.
다음 예시는 YOLO26을 사용하여 이미지에서 시각적 컨텍스트(탐지된 객체)를 추출하는 방법을 보여줍니다. 추출된 시각적 컨텍스트는 RAG 워크플로의 일부로 LLM에 전달될 수 있습니다.
from ultralytics import YOLO
# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")
# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")
# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]
print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person