용어집

다중 모달 RAG

텍스트, 이미지, 비디오를 처리하는 다중 모달 RAG(Retrieval-Augmented Generation)를 탐색하세요. Ultralytics AI 검색 파이프라인을 어떻게 강화하여 더 정확하고 문맥을 인식하는 응답을 제공하는지 알아보세요.

다중 모달 검색 강화 생성(Multimodal RAG)은 기존 RAG 시스템을 확장하여 텍스트, 이미지, 비디오, 오디오 등 다양한 데이터 유형을 처리하고 추론하는 고급 인공지능(AI) 프레임워크입니다. 표준 검색 강화 생성(RAG)이 대규모 언어 모델(LLM) 의 정확도를 향상시키지만, 다중 모달 RAG는 혼합 미디어 지식 기반에서 맥락을 검색함으로써 모델이 "보고" "듣는" 것을 가능하게 합니다. 이 접근법은 모델의 생성을 구체적인 시각적 또는 청각적 증거에 기반하여 LLM의 환각 현상을 크게 줄이고 비공개 데이터셋을 통한 시각적 질문 응답과 같은 사설 데이터셋에서의 시각적 질문응답과 같은 복잡한 작업을 가능케 합니다. 다중 모달 학습을 활용함으로써, 이러한 시스템은 사용자의 질의(예: 텍스트)와 검색된 자산(예: 다이어그램 또는 감시 카메라 화면)으로부터 정보를 종합하여 포괄적이고 맥락을 인지하는 응답을 생성할 수 있습니다.

다중 모달 RAG의 작동 방식

다중 모달 RAG 시스템의 아키텍처는 일반적으로 표준 "검색 후 생성(Retrieve-then-Generate)" 파이프라인을 반영하지만 비텍스트 데이터에 맞게 조정됩니다. 이 프로세스는 벡터 데이터베이스와 공유 의미 공간에 크게 의존합니다.

색인화: PDF, 동영상, 슬라이드 자료 등 다양한 출처의 데이터가 처리됩니다. 특징 추출 모델은 이러한 서로 다른 형태의 데이터를 임베딩이라 불리는 고차원 수치 벡터로 변환합니다. 예를 들어, OpenAI의 CLIP과 같은 모델은 이미지와 텍스트 임베딩을 정렬하여 개 사진과 "개"라는 단어가 수학적으로 가깝게 위치하도록 합니다.
검색: 사용자가 질문을 제기할 때(예: "이 회로 기판의 결함을 보여줘"), 시스템은 벡터 데이터베이스 전반에 걸쳐 의미적 검색을 수행하여 쿼리의 의도와 가장 잘 일치하는 관련성 높은 이미지나 동영상 클립을 찾아냅니다.
생성: 검색된 시각적 컨텍스트는 비전-언어 모델(VLM)에 입력됩니다. VLM은 사용자의 텍스트 프롬프트와 검색된 이미지 특징을 모두 처리하여 최종 답변을 생성하며, 이는 효과적으로 데이터와 "대화"하는 것과 같습니다.

실제 애플리케이션

다중 모달 RAG는 시각적 데이터를 통해 인공지능 에이전트가 물리적 세계와 상호작용할 수 있도록 함으로써 산업을 변화시키고 있습니다.

산업 유지보수 및 제조: 제조업에서 인공지능을 활용하면 기술자가 고장난 기계 부품 사진을 시스템에 입력해 질의할 수 있습니다. 다중 모달 RAG 시스템은 유사한 과거 유지보수 기록, 기술 도면 및 동영상 튜토리얼을 검색하여 수리 과정을 안내합니다. 이를 통해 가동 중단 시간을 줄이고 전문가 지식을 대중화합니다.
소매 및 전자상거래 탐색: 소매업에서 인공지능을 활용한 애플리케이션은 고객이 선호하는 의상 이미지를 업로드할 수 있게 합니다. 시스템은 현재 재고에서 시각적으로 유사한 아이템을 검색하고 스타일링 조언 또는 제품 비교를 생성하여 고도로 개인화된 쇼핑 경험을 제공합니다.

Ultralytics 구현

개발자는 다음을 사용하여 다중 모달 RAG 파이프라인의 검색 구성 요소를 구축할 수 있습니다. Ultralytics YOLO를 사용하여 구축할 수 있습니다. 이미지 내 객체를 탐지하고 분류함으로써, YOLO 텍스트 기반 검색을 위해 색인화하거나 VLM을 위한 관련 이미지 영역을 자르기 위해 사용할 수 있는 구조화된 메타데이터를 YOLO . Ultralytics 특정 도메인에 중요한 맞춤형 객체를 인식하도록 이러한 전문 비전 모델을 훈련하는 과정을 간소화합니다.

다음 예시는 YOLO26을 사용하여 이미지에서 시각적 컨텍스트(탐지된 객체)를 추출하는 방법을 보여줍니다. 추출된 시각적 컨텍스트는 RAG 워크플로의 일부로 LLM에 전달될 수 있습니다.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

추가 읽기 및 리소스

LangChain 문서: 다중 모달 지원 포함 검색 파이프라인 구축을 위한 포괄적인 가이드.
라마 인덱스 다중 모드 가이드: LLM을 위한 복잡한 데이터 유형의 인덱싱 및 검색에 관한 상세한 문서.
Google Vertex AI Search: 확장 가능한 RAG 애플리케이션 구축을 위한 엔터프라이즈급 벡터 검색 기능.
Ultralytics : 컴퓨터 비전이 다양한 산업 전반에 걸쳐 광범위한 AI 시스템과 어떻게 통합되는지 살펴보세요.

다중 모달 RAG

산업 전반의 워크플로우를 간소화하기 위한 Ultralytics YOLO 모델 교육

혁신을 강화하는 유연한 엔터프라이즈 라이선스 솔루션

Ultralytics YOLO 몇 초 만에 AI 모델 훈련하기

다중 모달 RAG의 작동 방식

실제 애플리케이션

관련 용어 차별화

Ultralytics 구현

추가 읽기 및 리소스

이 카테고리에서 더 읽어보기

컴퓨터 비전으로 구현된 12가지 항공 이미지 활용 사례

단안 깊이 추정이란 무엇인가? 개요

Ultralytics YOLO 활용한 AI 위협 탐지 기술 분석

Ultralytics 커뮤니티 가입