YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Multimodal RAG

텍스트, 이미지, 비디오를 처리하기 위한 멀티모달 RAG를 살펴보십시오. 더 정확하고 상황을 인식하는 응답을 위해 Ultralytics YOLO26이 AI 검색 파이프라인을 어떻게 향상시키는지 알아보십시오.

Multimodal Retrieval Augmented Generation (Multimodal RAG)은 인공지능 (AI)을 위한 고급 프레임워크로, 기존 RAG 시스템을 확장하여 텍스트, 이미지, 비디오, 오디오와 같은 다양한 데이터 유형을 처리하고 추론할 수 있게 합니다. 표준 Retrieval Augmented Generation (RAG)이 관련 텍스트 문서를 검색하여 Large Language Model (LLM)의 정확도를 향상시키는 반면, Multimodal RAG는 멀티미디어 지식 베이스에서 컨텍스트를 검색하여 모델이 "보고" "들을" 수 있도록 지원합니다. 이 접근 방식은 모델의 생성을 구체적인 시각적 또는 청각적 증거에 기반하게 하여 LLM의 환각(hallucinations)을 현저히 줄이고 비공개 데이터셋에 대한 시각적 질의응답과 같은 복잡한 작업을 가능하게 합니다. 멀티모달 학습(multi-modal learning)을 활용함으로써, 이러한 시스템은 사용자의 질의(예: 텍스트)와 검색된 자산(예: 다이어그램 또는 감시 영상 프레임)의 정보를 종합하여 포괄적이고 컨텍스트를 이해하는 응답을 생성합니다.

Link to this sectionMultimodal RAG의 작동 원리#

Multimodal RAG 시스템의 아키텍처는 일반적으로 표준 "검색 후 생성(Retrieve-then-Generate)" 파이프라인을 따르지만 비텍스트 데이터에 맞게 조정되어 있습니다. 이 프로세스는 벡터 데이터베이스(vector databases)와 공유 의미론적 공간(shared semantic spaces)에 크게 의존합니다.

  1. 인덱싱: PDF, 비디오, 슬라이드 덱 등 다양한 소스의 데이터가 처리됩니다. 특징 추출(Feature extraction) 모델은 이러한 서로 다른 모달리티를 임베딩(embeddings)이라 불리는 고차원 수치 벡터로 변환합니다. 예를 들어, OpenAI의 CLIP과 같은 모델은 이미지와 텍스트 임베딩을 정렬하여 개의 사진과 "dog"이라는 단어가 수학적으로 가깝게 배치되도록 합니다.

  2. 검색: 사용자가 질문을 던지면(예: "이 회로 기판의 결함을 보여줘"), 시스템은 벡터 데이터베이스에서 의미론적 검색(semantic search)을 수행하여 질의 의도와 가장 관련성이 높은 이미지나 비디오 클립을 찾습니다.

  3. 생성: 검색된 시각적 컨텍스트는 Vision-Language Model (VLM)에 입력됩니다. VLM은 사용자의 텍스트 프롬프트와 검색된 이미지 특징을 모두 처리하여 최종 답변을 생성하며, 사실상 데이터와 "대화"하게 됩니다.

Link to this section실제 애플리케이션 사례#

Multimodal RAG는 AI 에이전트(AI agents)가 시각적 데이터를 통해 물리적 세계와 상호 작용할 수 있도록 함으로써 산업을 변화시키고 있습니다.

  • 산업 유지보수 및 제조: 제조 분야의 AI(AI in manufacturing)에서 기술자는 고장 난 기계 부품의 사진을 사용하여 시스템에 질의할 수 있습니다. Multimodal RAG 시스템은 유사한 과거 유지보수 기록, 기술 도면, 비디오 튜토리얼을 검색하여 수리 과정을 안내합니다. 이는 가동 중지 시간을 줄이고 전문 지식을 대중화합니다.
  • 소매 및 전자상거래 발견: 소매 분야의 AI(AI in retail)을 사용하는 애플리케이션에서는 고객이 마음에 드는 의상의 이미지를 업로드할 수 있습니다. 시스템은 현재 재고에서 시각적으로 유사한 항목을 검색하고 스타일링 조언이나 제품 비교를 생성하여 고도로 개인화된 쇼핑 경험을 제공합니다.

Link to this section관련 용어 차별화#

Multimodal RAG의 구체적인 영역을 이해하려면 관련 개념과 구별하는 것이 도움이 됩니다:

  • Multimodal RAG와 멀티모달 모델(Multi-Modal Model) 비교: 멀티모달 모델(GPT-4o 또는 Gemini 등)은 응답을 생성합니다. Multimodal RAG는 해당 모델이 학습하지 않은 외부의 비공개 데이터(이미지, 문서 등)를 모델에 공급하는 아키텍처입니다. 모델이 엔진이라면 RAG는 연료 공급선입니다.
  • Multimodal RAG와 미세 조정(Fine-Tuning) 비교: 미세 조정은 새로운 작업이나 스타일을 학습하기 위해 모델 가중치(model weights)를 영구적으로 업데이트합니다. RAG는 추론 시점에 일시적인 지식을 제공합니다. RAG는 잦은 재학습이 비실용적인 동적 데이터(예: 일일 재고)에 더 적합합니다.

Link to this sectionUltralytics를 활용한 구현#

개발자는 Ultralytics YOLO를 사용하여 Multimodal RAG 파이프라인의 검색 구성 요소를 구축할 수 있습니다. YOLO는 이미지 내 객체를 감지하고 분류함으로써 텍스트 기반 검색을 위해 인덱싱하거나 VLM을 위해 관련 이미지 영역을 자르는 데 사용할 수 있는 구조화된 메타데이터를 제공합니다. Ultralytics Platform은 특정 도메인에 중요한 사용자 지정 객체를 인식하도록 이러한 전문 시각 모델을 학습시키는 과정을 간소화합니다.

다음 예제는 YOLO26을 사용하여 이미지에서 시각적 컨텍스트(감지된 객체)를 추출하는 방법을 보여주며, 이는 이후 RAG 워크플로우의 일부로 LLM에 전달될 수 있습니다.

from ultralytics import YOLO

# Load the YOLO26 model (smaller, faster, and more accurate)
model = YOLO("yolo26n.pt")

# Run inference on an image to 'retrieve' visual content
results = model("https://ultralytics.com/images/bus.jpg")

# Extract detected class names to form a text context
detected_objects = results[0].boxes.cls.tolist()
object_names = [model.names[int(cls)] for cls in detected_objects]

print(f"Retrieved Context: Image contains {', '.join(object_names)}")
# Output: Retrieved Context: Image contains bus, person, person, person

Link to this section추가 읽기 및 리소스#

  • LangChain 문서: 멀티모달 지원을 포함하여 검색 파이프라인을 구축하기 위한 포괄적인 가이드입니다.
  • LlamaIndex 멀티모달 가이드: LLM을 위한 복잡한 데이터 유형을 인덱싱하고 검색하는 방법에 대한 상세 문서입니다.
  • Google Cloud Vertex AI Search: 확장 가능한 RAG 애플리케이션 구축을 위한 엔터프라이즈급 벡터 검색 기능입니다.
  • Ultralytics 솔루션: 컴퓨터 비전이 다양한 산업 전반의 더 넓은 AI 시스템과 어떻게 통합되는지 알아보십시오.

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.
더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.
더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.
더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.
더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.
더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.
더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.
더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.